論文の概要: Mapping Faithful Reasoning in Language Models
- arxiv url: http://arxiv.org/abs/2510.22362v1
- Date: Sat, 25 Oct 2025 16:48:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.514907
- Title: Mapping Faithful Reasoning in Language Models
- Title(参考訳): 言語モデルにおける忠実な推論のマッピング
- Authors: Jiazheng Li, Andreas Damianou, J Rosser, José Luis Redondo García, Konstantina Palla,
- Abstract要約: 概念ウォーク(Concept Walk)は、モデルの内部スタンスがどのように進化するかを推論中に概念の方向性に関して追跡するフレームワークである。
表面テキストとは異なり、Concept Walkはアクティベーションスペースで動作し、コントラストデータから学習した概念方向への各推論ステップを投影する。
難易度」の場合、摂動CoTはすぐに無視され、装飾的推論を示すのに対し、「硬度」の場合、摂動は内的アクティベーションの持続的な変化を誘導し、忠実な推論と整合する。
- 参考スコア(独自算出の注目度): 1.978797083466893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought (CoT) traces promise transparency for reasoning language models, but prior work shows they are not always faithful reflections of internal computation. This raises challenges for oversight: practitioners may misinterpret decorative reasoning as genuine. We introduce Concept Walk, a general framework for tracing how a model's internal stance evolves with respect to a concept direction during reasoning. Unlike surface text, Concept Walk operates in activation space, projecting each reasoning step onto the concept direction learned from contrastive data. This allows us to observe whether reasoning traces shape outcomes or are discarded. As a case study, we apply Concept Walk to the domain of Safety using Qwen 3-4B. We find that in 'easy' cases, perturbed CoTs are quickly ignored, indicating decorative reasoning, whereas in 'hard' cases, perturbations induce sustained shifts in internal activations, consistent with faithful reasoning. The contribution is methodological: Concept Walk provides a lens to re-examine faithfulness through concept-specific internal dynamics, helping identify when reasoning traces can be trusted and when they risk misleading practitioners.
- Abstract(参考訳): CoT(Chain-of- Thought)は言語モデルの推論に透過性を約束するが、以前の研究は、内部計算を常に忠実に反映しているわけではないことを示している。
実践者は装飾的推論を本物と誤解することがある。
概念ウォーク(Concept Walk)は、モデルの内部スタンスがどのように進化するかを推論中に概念の方向性に関して追跡する一般的なフレームワークである。
表面テキストとは異なり、Concept Walkはアクティベーションスペースで動作し、コントラストデータから学習した概念方向への各推論ステップを投影する。
これにより、推論が成果を形作るのか、破棄されるのかを観察できる。
ケーススタディとして,Qwen 3-4B を用いてコンセプトウォークを安全領域に適用する。
難易度」の場合、摂動CoTはすぐに無視され、装飾的推論を示すのに対し、「硬度」の場合、摂動は内的アクティベーションの持続的な変化を誘導し、忠実な推論と整合する。
コンセプションウォークは、概念固有の内部ダイナミクスを通じて忠実を再検査するためのレンズを提供する。
関連論文リスト
- ActivationReasoning: Logical Reasoning in Latent Activation Spaces [43.17973499652433]
大きな言語モデル (LLM) は、流動的なテキストを生成するのに優れているが、内部の推論は不透明で制御が難しいままである。
LLMの潜在空間に明示的な論理的推論を組み込むフレームワークである ActivationReasoning (AR) を導入する。
ARは推論の複雑さで堅牢にスケールし、抽象的でコンテキストに敏感なタスクに一般化し、モデルバックボーン間で転送する。
論文 参考訳(メタデータ) (2025-10-21T00:21:04Z) - A Survey on Latent Reasoning [100.54120559169735]
大きな言語モデル(LLM)は印象的な推論機能を示している。
中間ステップを言語化するCoT推論は、モデルの表現帯域幅を制限する。
潜在的推論は、モデルの連続的な隠れ状態に完全にマルチステップの推論を実行することで、このボトルネックに対処する。
論文 参考訳(メタデータ) (2025-07-08T17:29:07Z) - Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space [62.54887038032942]
ソフトシンキング(Soft Thinking)は、ソフトで抽象的な概念トークンを生成することによって、人間のような「ソフト」推論をエミュレートする訓練不要な手法である。
これらの概念トークンは、連続的な概念空間を形成するトークン埋め込みの確率重み付き混合によって生成される。
本質的に、生成された概念トークンは関連する離散トークンから複数の意味をカプセル化し、暗黙的に様々な推論経路を探索する。
論文 参考訳(メタデータ) (2025-05-21T17:29:15Z) - Take A Step Back: Rethinking the Two Stages in Visual Reasoning [57.16394309170051]
本稿では2段階の視点で視覚的推論を再考する。
共有アナライザを使用しながら、異なるデータドメイン用の分離エンコーダによるシンボル化を実装する方が効率的である。
提案する2段階のフレームワークは,様々な視覚的推論タスクにおいて,印象的な一般化を実現する。
論文 参考訳(メタデータ) (2024-07-29T02:56:19Z) - Calibrating Reasoning in Language Models with Internal Consistency [18.24350001344488]
大規模言語モデル(LLM)は、様々な推論タスクにおいて印象的な機能を示している。
LLMは、しばしば明らかな誤りと矛盾のあるテキストを生成する。
本研究では,LLMにおける内部表現のレンズによる推論について検討する。
論文 参考訳(メタデータ) (2024-05-29T02:44:12Z) - Contrastive Chain-of-Thought Prompting [74.10511560147293]
本稿では,言語モデル推論を強化するために,思考の対照的な連鎖を提案する。
従来の思考の連鎖と比較して,本手法は妥当かつ無効な推論実証を提供する。
推論ベンチマーク実験により、思考の対照的な連鎖は、思考の連鎖の促進に役立てることができることを示した。
論文 参考訳(メタデータ) (2023-11-15T18:54:01Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Interpretable Neural-Symbolic Concept Reasoning [7.1904050674791185]
概念に基づくモデルは、人間の理解可能な概念のセットに基づいてタスクを学習することでこの問題に対処することを目的としている。
本稿では,概念埋め込みに基づく最初の解釈可能な概念ベースモデルであるDeep Concept Reasoner (DCR)を提案する。
論文 参考訳(メタデータ) (2023-04-27T09:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。