論文の概要: Right for the Wrong Reasons: Epistemic Regret Minimization for Causal Rung Collapse in LLMs
- arxiv url: http://arxiv.org/abs/2602.11675v1
- Date: Thu, 12 Feb 2026 07:48:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.705389
- Title: Right for the Wrong Reasons: Epistemic Regret Minimization for Causal Rung Collapse in LLMs
- Title(参考訳): LLMにおける因果性肺崩壊に対するてんかん性レグレットの最小化
- Authors: Edward Y. Chang,
- Abstract要約: 我々は,「間違った理由のために正しい」機械学習システムが,分散シフトの下で崩壊するショートカットによって高い性能を達成することを示す。
結果に基づく学習が正しい答えを補強すると、エージェントは欠陥のある推論に定着する。
本稿では,タスク成功とは無関係に因果推論における誤りをペナルティ化する信念修正の目的であるてんかんレグレト最小化(ERM)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning systems that are "right for the wrong reasons" achieve high performance through shortcuts that collapse under distributional shift. We show this pathology has a precise causal origin: autoregressive training provides no gradient signal to distinguish association P(Y|X) from intervention P(Y|do(X)), a failure we formalize as Rung Collapse. When outcome-based learning reinforces correct answers obtained through incorrect causal models, the agent becomes entrenched in flawed reasoning, a phenomenon we term Aleatoric Entrenchment. We propose Epistemic Regret Minimization (ERM), a belief revision objective that penalizes errors in causal reasoning independently of task success, and embed it within a three-layer architecture with three contributions grounded in knowledge representation: (1) a Physical Grounding Theorem proving that actions satisfying actuator independence implement valid do-operations, bridging action languages and do-calculus; (2) ERM as a causal belief revision operator satisfying AGM postulates, preventing entrenchment even when the agent succeeds for the wrong reasons; and (3) a failure mode taxonomy that classifies recurring reasoning errors and injects domain-independent guards, enabling cross-domain transfer. We prove asymptotic recovery of the true interventional distribution with finite-sample bounds. Experiments on 1,360 causal trap scenarios across six frontier LLMs reveal that Rung Collapse persists even in reasoning-enhanced models (3.7% for GPT-5.2), that steerability exhibits inverse scaling where advanced models resist generic correction, and that targeted ERM feedback recovers 53-59% of entrenched errors where outcome-level feedback fails.
- Abstract(参考訳): 機械学習システムは、分散シフトの下で崩壊するショートカットを通じて、高いパフォーマンスを達成する。
自己回帰訓練は、相関P(Y|do(X))と介入P(Y|do(X))を区別するための勾配信号を提供しない。
結果に基づく学習が誤った因果モデルによって得られた正解を補強すると、エージェントは欠陥推論(Aleatoric Entrenchment)と呼ばれる現象に陥る。
本研究では,(1)アクチベータ独立を満足する行動が有効な操作,ブリッジング動作言語,およびドカルカスを実現することを証明する物理接地理論,(2)AGMの仮定を満足する因果リビジョンリビジョン演算子としてのERM,(2)エージェントが誤った理由で成功してもエントレメントを防止し,(3)ドメインに依存しないガードを注入し,クロスドメイン転送を可能にする障害モードの分類を行う。
有限サンプル境界を持つ真の介入分布の漸近的回復を証明した。
6つのフロンティア LLM における 1,360 個の因果トラップシナリオの実験では、Rung Collapse は推論強化モデル (3.7% の GPT-5.2) においても持続し、ステアビリティは、高度なモデルが一般的な修正に抵抗する逆スケーリングを示し、目標のERM フィードバックは、結果レベルのフィードバックが失敗する53-59%のエンレンスエラーを回復することを示した。
関連論文リスト
- Generation Order and Parallel Decoding in Masked Diffusion Models: An Information-Theoretic Perspective [16.942478643768144]
Masked Diffusion Models (MDMs) は、逐次決定論のトレードオフによって推論を著しく加速する。
我々は,2つの障害源である順序感度と並列化バイアスを分離し,解析するための統合情報理論フレームワークを提供する。
論文 参考訳(メタデータ) (2026-01-30T20:15:18Z) - RAudit: A Blind Auditing Protocol for Large Language Model Reasoning [0.8594140167290097]
推論時間のスケーリングは、梅毒、暴走崩壊、早さの確実性といった推論の病理を増幅することができる。
基礎的な真理アクセスを伴わずにLCM推論を監査するための診断プロトコルであるRAuditを提案する。
論文 参考訳(メタデータ) (2026-01-30T16:22:45Z) - Recoverability Has a Law: The ERR Measure for Tool-Augmented Agents [0.0]
我々は,言語モデルエージェントの可測法則に従えば回復可能であることを示す。
制御された摂動、診断推論、実世界のAPIにまたがる5つのツール使用ベンチマークで、この法則を実証的に検証します。
この結果から,リカバリ性はモデルスケールやアーキテクチャの人工物ではなく,インタラクションダイナミクスの制御された特性であることが判明した。
論文 参考訳(メタデータ) (2026-01-29T21:55:50Z) - Consistency Is Not Always Correct: Towards Understanding the Role of Exploration in Post-Training Reasoning [75.79451512757844]
基礎モデルは幅広い知識を示すが、タスク固有の推論は限定的である。
RLVRと推論スケーリングは、RLVRや推論スケーリングのようなトレーニング後の戦略を動機付けます。
RLVRはスキューズ効果を誘発し,推論エントロピーを減少させ,正しい経路を忘れることを示した。
論文 参考訳(メタデータ) (2025-11-10T18:25:26Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - ReaLM: Reflection-Enhanced Autonomous Reasoning with Small Language Models [76.28894983518164]
小型言語モデル (SLM) は大規模言語モデル (LLM) に代わる費用対効果がある。
彼らはしばしば、限られた能力と間違いや一貫性のない答えを生み出す傾向があるため、複雑な推論に苦しむ。
本稿では、垂直領域における堅牢かつ自己充足的推論のための強化学習フレームワークであるReaLMを紹介する。
論文 参考訳(メタデータ) (2025-08-17T14:50:23Z) - Lost at the Beginning of Reasoning [85.17612793300238]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。