論文の概要: CoT is Not the Chain of Truth: An Empirical Internal Analysis of Reasoning LLMs for Fake News Generation
- arxiv url: http://arxiv.org/abs/2602.04856v2
- Date: Thu, 05 Feb 2026 17:47:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 16:28:44.94799
- Title: CoT is Not the Chain of Truth: An Empirical Internal Analysis of Reasoning LLMs for Fake News Generation
- Title(参考訳): CoTは真理の連鎖ではない:フェイクニュース生成のための推論LDMの実証内部分析
- Authors: Zhao Tong, Chunlin Gong, Yiping Zhang, Qiang Liu, Xingcheng Xu, Shu Wu, Haichao Shi, Xiao-Yu Zhang,
- Abstract要約: 偽ニュース生成では、たとえモデルが有害な要求を拒絶しても、そのチェーン・オブ・ソート(CoT)推論は内部的にも安全でない物語を包含し伝播する可能性がある。
モデル層間におけるCoT生成を系統的に分解し,個別の注意点の役割を評価する統合型安全分析フレームワークを提案する。
我々の研究は、拒絶が安全性を示唆する仮定に挑戦し、潜伏する推論リスクを軽減するための新たな理解視点を提供する。
- 参考スコア(独自算出の注目度): 29.963430567846988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: From generating headlines to fabricating news, the Large Language Models (LLMs) are typically assessed by their final outputs, under the safety assumption that a refusal response signifies safe reasoning throughout the entire process. Challenging this assumption, our study reveals that during fake news generation, even when a model rejects a harmful request, its Chain-of-Thought (CoT) reasoning may still internally contain and propagate unsafe narratives. To analyze this phenomenon, we introduce a unified safety-analysis framework that systematically deconstructs CoT generation across model layers and evaluates the role of individual attention heads through Jacobian-based spectral metrics. Within this framework, we introduce three interpretable measures: stability, geometry, and energy to quantify how specific attention heads respond or embed deceptive reasoning patterns. Extensive experiments on multiple reasoning-oriented LLMs show that the generation risk rise significantly when the thinking mode is activated, where the critical routing decisions concentrated in only a few contiguous mid-depth layers. By precisely identifying the attention heads responsible for this divergence, our work challenges the assumption that refusal implies safety and provides a new understanding perspective for mitigating latent reasoning risks.
- Abstract(参考訳): 見出し作成からニュース作成まで、大言語モデル(LLM)は一般的に最終出力によって評価される。
本研究は, 偽ニュース生成において, モデルが有害な要求を拒絶した場合でも, そのチェーン・オブ・ソート(CoT)推論が内包し, 不安全な物語を広める可能性があることを明らかにした。
この現象を解析するために,モデル層全体にわたってCoT生成を体系的に分解し,ジャコビアンスペクトル測定により個々の注意点の役割を評価する,統合された安全分析フレームワークを導入する。
この枠組みでは、特定の注意がどのように反応するかを定量化するために、安定性、幾何、エネルギーの3つの解釈可能な測度を導入する。
複数の推論指向LLMの広範な実験により、思考モードが活性化されたときに生成リスクが著しく上昇し、重要な経路決定は少数の連続した中間層にのみ集中することが示された。
この分岐の原因となる注意を正確に特定することで、我々の作業は、拒絶が安全を意味するという仮定に挑戦し、潜伏する推論リスクを軽減するための新たな理解の視点を提供する。
関連論文リスト
- Beware of Reasoning Overconfidence: Pitfalls in the Reasoning Process for Multi-solution Tasks [54.31998314008198]
大きな言語モデル(LLM)は、単一の正しい答えを必要とするタスクの推論において優れているが、マルチソリューションタスクでは不十分である。
我々はこの制限を、不完全解集合における不完全確実性を表現する傾向という、不確実な過信(textbfreasoning overconfidence)に起因している。
この仮説は, 思考経路の狭いセットに早急に収束すると, 過信が生じることを示唆するものである。
論文 参考訳(メタデータ) (2025-12-01T14:35:06Z) - SafeRBench: A Comprehensive Benchmark for Safety Assessment in Large Reasoning Models [60.8821834954637]
LRMの安全性をエンドツーエンドに評価する最初のベンチマークであるSafeRBenchを紹介する。
私たちは、リスクカテゴリとレベルを入力設計に組み込んだ先駆者です。
我々は,長い推論トレースを意味的に一貫性のある単位にセグメント化するためのマイクロシンクのチャンキング機構を導入する。
論文 参考訳(メタデータ) (2025-11-19T06:46:33Z) - When Models Outthink Their Safety: Mitigating Self-Jailbreak in Large Reasoning Models with Chain-of-Guardrails [74.63933201261595]
大規模推論モデル(LRM)は複雑な推論タスクにおいて顕著な能力を示す。
LRMは、有害なコンテンツ生成やジェイルブレイク攻撃など、深刻な安全リスクに弱いままである。
安全でない推論ステップを再構成またはバックトラックするトレーニングフレームワークであるChain-of-Guardrail(CoG)を提案する。
論文 参考訳(メタデータ) (2025-10-24T09:32:25Z) - FaithCoT-Bench: Benchmarking Instance-Level Faithfulness of Chain-of-Thought Reasoning [62.452350134196934]
FaithCoT-Benchは、インスタンスレベルのCoT不信検出のための統一ベンチマークである。
我々の枠組みは差別的な決定問題として不誠実検出を定式化している。
FaithCoT-Bench は LLM のより解釈可能で信頼性の高い推論に向けた将来の研究の基盤となる。
論文 参考訳(メタデータ) (2025-10-05T05:16:54Z) - Is Reasoning All You Need? Probing Bias in the Age of Reasoning Language Models [0.0]
RLM(Reasoning Language Models)は、複雑な多段階推論タスクを実行する能力によって注目を集めている。
これらの能力は信頼性の向上を約束するが、社会的バイアスに対する堅牢性への影響はまだ不明だ。
我々は, CLEAR-Bias ベンチマークを用いて, RLM のバイアス誘発に対する対角的ロバスト性について検討する。
論文 参考訳(メタデータ) (2025-07-03T17:01:53Z) - Calibrating Reasoning in Language Models with Internal Consistency [18.24350001344488]
大規模言語モデル(LLM)は、様々な推論タスクにおいて印象的な機能を示している。
LLMは、しばしば明らかな誤りと矛盾のあるテキストを生成する。
本研究では,LLMにおける内部表現のレンズによる推論について検討する。
論文 参考訳(メタデータ) (2024-05-29T02:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。