論文の概要: The Reasoning Trap: An Information-Theoretic Bound on Closed-System Multi-Step LLM Reasoning
- arxiv url: http://arxiv.org/abs/2605.01704v2
- Date: Tue, 05 May 2026 16:21:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 14:45:21.248196
- Title: The Reasoning Trap: An Information-Theoretic Bound on Closed-System Multi-Step LLM Reasoning
- Title(参考訳): Reasoning Trap: 閉系マルチステップLDM推論における情報理論境界
- Authors: Kwan Soo Shin,
- Abstract要約: マルチエージェントの場合、Debate Trap と Reasoning Trap というより広い現象を例に挙げる。
フレームワークには、(i) SFS(Supported Faithfulness Score)、(ii) EGSR(Evidence-Grounded Socratic Reasoning)の3つの部分がある。
定理 1 のマルコフ構造を保存する閉系推論プロトコルは、期待して、同じ DPI 境界となる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When copies of the same language model are prompted to debate, they produce diverse phrasings of one perspective rather than diverse perspectives. Multi-agent debate (MAD), and more broadly closed-system reasoning where agents iteratively transform each other's outputs, tends to preserve answer accuracy while degrading the reasoning behind those answers. We name the multi-agent case the Debate Trap and the broader phenomenon the Reasoning Trap, offering a programmatic theory of evidence-grounded reasoning failure.The framework has three parts: (i) SFS (Supported Faithfulness Score), a claim-level metric verifying decomposed atomic claims against provided evidence (decomposer-invariant rankings: Spearman rho=1.0); (ii) EGSR (Evidence-Grounded Socratic Reasoning), replacing adversarial argumentation with evidence-grounded inquiry; (iii) Theorem 1 (DPI Bound): under standard MAD, the chain E -> O^0 -> O^1 -> ... is Markov, and the Data Processing Inequality implies E[I(E;O^{t+1})] <= E[I(E;O^t)]. Three companion results -- open-system recovery (Theorem 2), EGSR accumulation (Lemma 2), and vote-aggregation floor (Proposition 1) -- partition multi-step LLM reasoning by its information-theoretic relationship to E. Across 16 conditions on SciFact (300 claims) and FEVER (1,000 claims), DebateCV (C13) preserves 88% of baseline accuracy while SFS drops 43%; majority-vote MAD (C15) reduces SFS to 1.7% of baseline (p < 10^{-6}, d = -0.96); EGSR recovers 98%. An R6 cohort study (Korean n=10x30 FEVER; English n=3x200 SciFact) finds inter-rater Fleiss kappa <= +0.018 with 0.8-1.4 Likert intra-rater shifts across language and domain -- the human agreement that faithfulness metrics have been calibrated against is not itself stable. We offer one falsifiable conjecture: any closed-system reasoning protocol preserving Theorem 1's Markov structure is, in expectation, subject to the same DPI bound.
- Abstract(参考訳): 同じ言語モデルのコピーが議論されるとき、それらは様々な視点ではなく、一つの視点の多様な表現を生み出します。
エージェント同士の出力を反復的に変換するマルチエージェントの議論(MAD)や、より広くクローズドなシステム推論は、それらの答えの背後にある推論を劣化させながら、回答の正確性を保ちがちである。
マルチエージェント・ケースであるDebate TrapとReasoning Trapを名付け、エビデンスを根拠とした推論失敗のプログラム理論を提供する。
(i)SFS(Supported Faithfulness Score)は、提供された証拠に対する分解原子のクレームを検証するためのクレームレベル計量(デコンポスタ不変ランク:Spearman rho=1.0)。
(二)EGSR(Evidence-Grounded Socratic Reasoning,Evidence-Grounded Socratic Reasoning)
三 理論1(DPIバウンド):標準MADでは、チェーンE−>O^0−>O^1−>...はマルコフであり、データ処理の不等式は、E[I(E;O^{t+1})] <=E[I(E;O^t)]を意味する。
Across 16 conditions on SciFact (300 claims) and FEVER (1,000 claims), DebateCV (C13 claims), DebateCV (C13) はベースライン精度を88%, SFS は43%, majority-vote MAD (C15) はベースラインの1.7%に減少する(p < 10^{-6}, d = -0.96); EGSR は98%に回復する。
R6コホート研究 (韓国語: n=10x30 FEVER; 英語: n=3x200 SciFact) では、Fleiss kappa <= +0.018と0.8-1.4で、言語とドメインをまたいだラター内シフトが似ている。
定理 1 のマルコフ構造を保存する閉系推論プロトコルは、期待して、同じ DPI 境界となる。
関連論文リスト
- LiveMathematicianBench: A Live Benchmark for Mathematician-Level Reasoning with Proof Sketches [61.30693283718321]
研究レベルの数学的推論のための動的多重選択ベンチマークであるLiveMathematicianBenchを提案する。
新たに発表された定理で評価を基礎づけることで、記憶されたパターンを超えた現実的なテストベッドを提供する。
このパイプラインは、高レベルな証明戦略を使用して、妥当だが無効な解選択を構築する。
論文 参考訳(メタデータ) (2026-04-02T08:22:17Z) - Umwelt Engineering: Designing the Cognitive Worlds of Linguistic Agents [0.0]
スタック・スタック・エンジニアリングにおける第3層として言語認知環境の設計を提案する。
2つの実験は、推論の媒質を変えることがそれ自体を変えるという仮説を検証した。
論文 参考訳(メタデータ) (2026-03-29T10:49:50Z) - Repetition Without Exclusivity: Scale Sensitivity of Referential Mechanisms in Child-Scale Language Models [0.0]
子ども指向音声で訓練された言語モデルにおいて、相互排他性は参照抑制として機能する。
子指向音声における分布学習は、語彙的排他性よりも反復に基づく参照追跡を生成する。
我々は、参照グラウンドディングは、ナチビストではなく、必要な入力構造に関する実証的な主張であるMEにとって必要な要素であるかもしれないと論じる。
論文 参考訳(メタデータ) (2026-03-14T01:59:50Z) - Theoretical Foundations of Latent Posterior Factors: Formal Guarantees for Multi-Evidence Reasoning [0.0]
Latent Posterior Factors (LPF) は確率的予測タスクにおいて複数の異種証拠を集約するための原則的枠組みである。
LPFは各エビデンス項目を変分オートエンコーダを介してガウス潜在後部へエンコードし、後部をモンテカルロを経由してソフトファクタに変換し、正確なSum-Product Network Inference (LPF-PN) を介して集約する。
すべてのアグリゲータは、最大4,200のトレーニング例にまたがるデータセットに対して、経験的に検証されている。
論文 参考訳(メタデータ) (2026-03-13T17:44:14Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - SIN-Bench: Tracing Native Evidence Chains in Long-Context Multimodal Scientific Interleaved Literature [92.88058660627678]
FITO(Fish-in-the-Ocean)パラダイムは、科学文書の中に明確なクロスモーダルなエビデンスチェーンを構築するモデルを必要とする。
我々は、証拠発見(SIN-Find)、仮説検証(SIN-Verify)、接地QA(SIN-QA)、エビデンスアンコレッド合成(SIN-Summary)の4つのプログレッシブなタスクでSIN-Benchを構築する。
検証可能なアンカーに基づき、マッチング、関連性、論理による証拠品質の診断を行う際に、予測値を評価する「No Evidence, No Score」を導入する。
論文 参考訳(メタデータ) (2026-01-15T06:25:25Z) - Milestones over Outcome: Unlocking Geometric Reasoning with Sub-Goal Verifiable Reward [67.00373428443879]
サブゴールレベルの評価と学習へのパラダイムシフトを導入する。
まず,厳密な形式検証データエンジンを用いたベンチマークであるGeoGoalを構築した。
本研究では,スケルトンレートに基づいて,スパース信号を高密度な報酬に置き換えるサブゴール検証リワード(SGVR)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-08T16:17:56Z) - From Facts to Conclusions : Integrating Deductive Reasoning in Retrieval-Augmented LLMs [5.838119242443381]
本稿では,3段階にまたがる構造的,解釈可能な推論を付加する推論トレース拡張RAGフレームワークを提案する。
矛盾認識信頼スコア(CATS)パイプラインを導入し、基礎性、事実的正確性、拒絶精度、紛争行動アライメントを評価する。
論文 参考訳(メタデータ) (2025-12-18T17:27:51Z) - ARCHE: A Novel Task to Evaluate LLMs on Latent Reasoning Chain Extraction [70.53044880892196]
本稿では、複雑な推論引数を標準推論パラダイムの組み合わせに分解し、Reasoning Logic Tree (RLT) という形で分解しなければならない、ARCHE(Latent Reasoning Chain extract)という新しいタスクを紹介する。
この作業を容易にするために,我々は,1,900以上の参照と38,000の視点を含む70のNature Communicationsの記事から得られた新しいベンチマークであるARCHE Benchをリリースする。
ARCHE Bench上での10のLLMの評価では、モデルがREAとECのトレードオフを示しており、完全な標準推論チェーンを抽出することはできません。
論文 参考訳(メタデータ) (2025-11-16T07:37:09Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。