論文の概要: A Fano-Style Accuracy Upper Bound for LLM Single-Pass Reasoning in Multi-Hop QA
- arxiv url: http://arxiv.org/abs/2509.21199v1
- Date: Thu, 25 Sep 2025 14:11:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.969022
- Title: A Fano-Style Accuracy Upper Bound for LLM Single-Pass Reasoning in Multi-Hop QA
- Title(参考訳): マルチホップQAにおけるLDMシングルパス推論のためのファノスタイルアッパーバウンド
- Authors: Kaiyang Wan, Lang Gao, Honglin Mu, Preslav Nakov, Yuxia Wang, Xiuying Chen,
- Abstract要約: MHQA(Multi-Hop Question Answering)は、ノイズ下でのシーケンシャルな推論を通じて、分散した相互依存的な証拠を統合する必要がある。
我々はMHQAのための概念実証マルチコールフレームワークをInfoQAで紹介する。
我々は、理論とフレームワークを検証するために、厳密で騒音に富んだベンチマークを構築した。
- 参考スコア(独自算出の注目度): 65.38186593873313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-Hop Question Answering (MHQA) requires integrating dispersed, interdependent evidence through sequential reasoning under noise. This task is challenging for LLMs as they have a finite per-pass output capacity, beyond which the integration of task-relevant evidence proves unreliable. Consequently, the single-pass reasoning paradigm is inherently vulnerable to this capacity overflow. To formalize this bottleneck, our analysis establishes a Fano-style accuracy upper bound, defining a theoretical performance ceiling for single-pass LLMs. This bound reveals that accuracy inevitably collapses once task complexity exceeds model capacity, providing general principles for capacity-aware representation and structuring of MHQA in LLMs. Building on these principles, we introduce a proof-of-concept multi-call framework for MHQA, InfoQA. It ensures high per-step accuracy by combining capacity-aware task decomposition with active pruning of prior reasoning traces, keeping the information load within the single-pass limit. It further achieves robustness by a dependency-explicit workflow that enables precise control over the reasoning path. We construct a stringent and noise-rich benchmark to validate our theory and framework. Experimental results show that model behavior aligns with our predicted capacity curves while InfoQA achieves consistent performance improvements. We hope our work inspires more LLM multi-step reasoning methods: \faGithub \href{https://github.com/KaiyangWan/InfoQA}{InfoQA}.
- Abstract(参考訳): MHQA(Multi-Hop Question Answering)は、ノイズ下でのシーケンシャルな推論を通じて、分散した相互依存的な証拠を統合する必要がある。
タスク関連エビデンスの統合は信頼できないが, LLM の出力容量が有限であることから, この課題は困難である。
その結果、シングルパス推論パラダイムは本質的にこのキャパシティオーバーフローに対して脆弱である。
このボトルネックを定式化するために,我々はFano-style accuracy upper boundを定式化し,単一パスLLMの理論的性能天井を定義する。
このバウンダリは、タスク複雑性がモデルキャパシティを超えると必然的に精度が崩壊し、LCMにおけるキャパシティ対応表現とMHQAの構造に関する一般的な原則を提供する。
これらの原則に基づいて,MHQA 用の概念実証マルチコールフレームワーク InfoQA を紹介した。
キャパシティ対応タスク分解と事前の推論トレースのアクティブプルーニングを組み合わせ、情報負荷をシングルパス制限内に保持することにより、ステップ毎の精度を確保する。
さらに、推論パスの正確な制御を可能にする依存性要求ワークフローによって、堅牢性を実現する。
我々は、理論とフレームワークを検証するために、厳密で騒音に富んだベンチマークを構築した。
実験の結果、モデルの挙動は予測されるキャパシティ曲線と一致し、InfoQAは一貫したパフォーマンス改善を実現していることがわかった。
当社の作業は、よりLLMの多段階推論方法に刺激を与えてくれることを期待しています。
関連論文リスト
- seqBench: A Tunable Benchmark to Quantify Sequential Reasoning Limits of LLMs [1.0519693622157462]
我々は,Large Language Models (LLMs) における逐次推論限界を探索するベンチマークであるseqBenchを紹介する。
検索の複雑さが最小限であるにもかかわらず、セクベンチの構造的推論タスクでは、トップパフォーマンスモデルでさえ体系的に失敗することがわかった。
論文 参考訳(メタデータ) (2025-09-21T01:32:13Z) - Reinforcing Question Answering Agents with Minimalist Policy Gradient Optimization [80.09112808413133]
Mujicaは、質問をサブクエストの非循環グラフに分解するプランナーであり、検索と推論を通じて質問を解決するワーカーである。
MyGOは、従来のポリシー更新を勾配的いいねりの最大推定に置き換える、新しい強化学習手法である。
複数のデータセットにまたがる実験結果から,マルチホップQA性能向上における MujicaMyGO の有効性が示された。
論文 参考訳(メタデータ) (2025-05-20T18:33:03Z) - Learning on LLM Output Signatures for gray-box Behavior Analysis [52.81120759532526]
大きな言語モデル(LLM)は広く採用されていますが、その振る舞いに対する私たちの理解は限定的です。
グレーボックス設定におけるプロセス汚染とデータ検出のためのトランスフォーマーベースのアプローチを開発する。
提案手法は,グレーボックス設定における幻覚とデータ検出における優れた性能を実現し,既存のベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-03-18T09:04:37Z) - Are Your LLMs Capable of Stable Reasoning? [38.03049704515947]
G-Pass@$k$は、複数のサンプリング試行においてモデル性能を継続的に評価する新しい評価指標である。
私たちはG-Pass@$k$と最先端の大規模言語モデルを使って、その潜在能力と運用上の一貫性に関する包括的な洞察を提供しています。
論文 参考訳(メタデータ) (2024-12-17T18:12:47Z) - Deconfounded Causality-aware Parameter-Efficient Fine-Tuning for Problem-Solving Improvement of LLMs [12.48241058167222]
大規模言語モデル(LLM)は、人間の指示に基づいて様々なタスクに取り組む際に、顕著な効率性を示した。
しかし、数学や物理学の限界など、推論を必要とするタスクに苦しむことが研究によって明らかになっている。
このことは、LLMが組み込み知識を本当に理解しているか、それとも、コンテンツに対する真の理解なしにトークン分布を複製することを学ぶだけなのかという疑問を提起する。
モデルの推論能力を高めるために,新しいパラメータ効率細調整法であるDecon Causal Adaptation (DCA)を提案する。
論文 参考訳(メタデータ) (2024-09-04T13:17:09Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。