論文の概要: Breaking the Chain: A Causal Analysis of LLM Faithfulness to Intermediate Structures
- arxiv url: http://arxiv.org/abs/2603.16475v1
- Date: Tue, 17 Mar 2026 13:01:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.285897
- Title: Breaking the Chain: A Causal Analysis of LLM Faithfulness to Intermediate Structures
- Title(参考訳): 鎖を割る: 中間構造に対するLLMの忠実さの因果解析
- Authors: Oleg Somov, Mikhail Chaichuk, Mikhail Seleznyov, Alexander Panchenko, Elena Tutubalina,
- Abstract要約: 本稿では,出力を因果的に決定する因果評価プロトコルを提案する。
8つのモデルと3つのベンチマークで、モデルは自身の中間構造と自己整合しているように見えるが、最大60%のケースに介入した後に予測を更新できない。
全体として、スキーマ誘導パイプラインの中間構造は、安定した因果メディエータよりも影響のある文脈として機能する。
- 参考スコア(独自算出の注目度): 58.54426802984356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Schema-guided reasoning pipelines ask LLMs to produce explicit intermediate structures -- rubrics, checklists, verification queries -- before committing to a final decision. But do these structures causally determine the output, or merely accompany it? We introduce a causal evaluation protocol that makes this directly measurable: by selecting tasks where a deterministic function maps intermediate structures to decisions, every controlled edit implies a unique correct output. Across eight models and three benchmarks, models appear self-consistent with their own intermediate structures but fail to update predictions after intervention in up to 60% of cases -- revealing that apparent faithfulness is fragile once the intermediate structure changes. When derivation of the final decision from the structure is delegated to an external tool, this fragility largely disappears; however, prompts which ask to prioritize the intermediate structure over the original input do not materially close the gap. Overall, intermediate structures in schema-guided pipelines function as influential context rather than stable causal mediators.
- Abstract(参考訳): スキーマ誘導推論パイプラインは、最終決定にコミットする前に、LCMにルーブリック、チェックリスト、検証クエリといった明示的な中間構造を生成するように要求する。
しかし、これらの構造はアウトプットを慎重に決定するだろうか?
決定論的関数が中間構造を決定にマップするタスクを選択することにより、制御された全ての編集がユニークな正しい出力を示す。
8つのモデルと3つのベンチマークで、モデルは自身の中間構造と自己整合性があるように見えるが、最大60%のケースに介入した後、予測を更新できない。
構造からの最終的な決定を外部ツールに委譲すると、この脆弱性は大きく消えるが、元の入力よりも中間構造を優先するよう要求する人は、ギャップを実質的に閉じない。
全体として、スキーマ誘導パイプラインの中間構造は、安定した因果媒介者ではなく、影響力のある文脈として機能する。
関連論文リスト
- Causality is Key for Interpretability Claims to Generalise [35.833847356014154]
大規模言語モデル(LLM)の解釈可能性の研究は、モデル行動に関する重要な洞察をもたらした。
繰り返し発生する落とし穴: 一般化しない発見と、証拠を突破する因果解釈。
パールの因果的階層は、解釈可能性の研究が正当化できることを明確にする。
論文 参考訳(メタデータ) (2026-02-18T18:45:04Z) - Dynamics Within Latent Chain-of-Thought: An Empirical Study of Causal Structure [58.89643769707751]
表現空間における潜在連鎖を操作可能な因果過程として研究する。
遅延ステップの予算は、均質な余分な深さよりも、非局所的なルーティングを備えたステージ機能のように振る舞う。
これらの結果は、モード条件と安定性を意識した分析を、潜伏推論システムの解釈と改善のための信頼性の高いツールとして動機付けている。
論文 参考訳(メタデータ) (2026-02-09T15:25:12Z) - Emergent Structured Representations Support Flexible In-Context Inference in Large Language Models [77.98801218316505]
大型言語モデル(LLM)は、人間のような推論を示唆する創発的な行動を示す。
テキスト内概念推論におけるLLMの内部処理について検討する。
論文 参考訳(メタデータ) (2026-02-08T03:14:39Z) - Multi-Agent Procedural Graph Extraction with Structural and Logical Refinement [66.51979814832332]
モデル式は、専用の構造的および論理的洗練を伴う多ラウンド推論プロセスとして手続きグラフ抽出を定式化する。
実験により、モデルが強いベースラインに対して構造的正当性と論理的整合性の両方において大幅に改善されることが示されている。
論文 参考訳(メタデータ) (2026-01-27T04:00:48Z) - Think Locally, Explain Globally: Graph-Guided LLM Investigations via Local Reasoning and Belief Propagation [5.191980417814362]
LLMエージェントは、ほとんどの環境が静的で、必要な情報がモデルのコンテキストウインドウに適合する場合、排他的になる。
直腸型薬剤は、この体制では特に脆い。
本稿では,LLMが限定的な局所的エビデンスマイニングとラベリングを行うためのフレームワークであるEoGを提案する。
論文 参考訳(メタデータ) (2026-01-25T17:27:19Z) - Structured Reasoning for Large Language Models [59.215789462977206]
本研究では、推論を明示的、評価可能、トレーニング可能なコンポーネントに分解するフレームワークであるStructured Reasoning(SCR)を提案する。
SCRは推論効率と自己検証を大幅に改善する。
既存の推論パラダイムと比較して、出力トークンの長さを最大50%削減する。
論文 参考訳(メタデータ) (2026-01-12T04:04:01Z) - Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - Unsupervised Cross-Lingual Transfer of Structured Predictors without
Source Data [37.1075911292287]
入力モデルを集約する手段は重要であり, 遠隔監視のための高確率構造を得るために, サブストラクチャの限界確率を乗じることの方が, 入力モデルよりもはるかに優れていることを示す。
本手法は18言語を対象に,係り受け解析とパート・オブ・音声による予測問題を考慮し,言語間セッティングで機能することが実証された。
分析の結果,提案手法は遠隔監視のためのノイズの少ないラベルを生成することがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:46:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。