論文の概要: Lost in Transmission: When and Why LLMs Fail to Reason Globally
- arxiv url: http://arxiv.org/abs/2505.08140v2
- Date: Mon, 19 May 2025 16:46:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.656668
- Title: Lost in Transmission: When and Why LLMs Fail to Reason Globally
- Title(参考訳): トランスミッションの損失:LLMが世界規模で失敗する時期と理由
- Authors: Tobias Schnabel, Kiran Tomlinson, Adith Swaminathan, Jennifer Neville,
- Abstract要約: 本稿では,アテンションヘッド上の帯域制限をモデル化する新しい計算フレームワークである,バウンダリ・アテンションプレフィックス・オラクル(BAPO)モデルを紹介する。
グラフ到達性のような重要な理由付け問題は、BAPOが解決するためには、高い通信帯域幅を必要とすることを示す。
本研究は,LLMの故障の原理的説明とアーキテクチャの方向性,帯域幅制限を緩和する推論手法を提案する。
- 参考スコア(独自算出の注目度): 20.267285179908384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their many successes, transformer-based large language models (LLMs) continue to struggle with tasks that require complex reasoning over large parts of their input. We argue that these failures arise due to capacity limits on the accurate flow of information within LLMs. To formalize this issue, we introduce the bounded attention prefix oracle (BAPO) model, a new computational framework that models bandwidth constraints on attention heads, the mechanism for internal communication in LLMs. We show that several important reasoning problems like graph reachability require high communication bandwidth for BAPOs to solve; we call these problems BAPO-hard. Our experiments corroborate our theoretical predictions: GPT-4o, Claude, and Gemini succeed on BAPO-easy tasks and fail even on relatively small BAPO-hard tasks. BAPOs also reveal another benefit of chain of thought (CoT): we prove that breaking down a task using CoT can turn any BAPO-hard problem into a BAPO-easy one. Our results offer principled explanations for key LLM failures and suggest directions for architectures and inference methods that mitigate bandwidth limits.
- Abstract(参考訳): 多くの成功にもかかわらず、トランスフォーマーベースの大規模言語モデル(LLM)は、入力の大部分が複雑な推論を必要とするタスクに悩まされ続けている。
これらの故障は、LSM内の情報の正確な流れの容量制限によるものであると我々は主張する。
この問題を定式化するために,LLMの内部通信のメカニズムをモデル化する新しい計算フレームワーク,BAPO(bounded attention prefix Oracle)モデルを導入する。
グラフ到達性のようないくつかの重要な理由付け問題は、BAPOが解決すべき通信帯域幅が高いことを示し、これらの問題をBAPOハードと呼ぶ。
GPT-4o, Claude, Gemini は比較的小さな BAPO のタスクでも BAPO のタスクで成功し、失敗する。
BAPOは思考の連鎖(CoT)のもう1つの利点も明らかにします。
本研究は,LLMの故障の原理的説明とアーキテクチャの方向性,帯域幅制限を緩和する推論手法を提案する。
関連論文リスト
- A Trustworthy Multi-LLM Network: Challenges,Solutions, and A Use Case [59.58213261128626]
複数の大規模言語モデル(LLM)を信頼性のあるマルチLLMネットワーク(MultiLLMN)に接続するブロックチェーン対応協調フレームワークを提案する。
このアーキテクチャは、複雑なネットワーク最適化問題に対する最も信頼性が高く高品質な応答の協調評価と選択を可能にする。
論文 参考訳(メタデータ) (2025-05-06T05:32:46Z) - Order Matters: Investigate the Position Bias in Multi-constraint Instruction Following [39.114513139453756]
複数の制約を持つ実世界の命令は、既存の大規模言語モデル(LLM)に重大な課題をもたらす。
我々は,CDDI(Difficulty Distribution Index)による制約の難易度分布を定量的に測定する。
難解な順序で制約を提示した場合, LLM はより高性能であることが判明した。
論文 参考訳(メタデータ) (2025-02-24T14:39:28Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - Enhancing the Reasoning Capabilities of Small Language Models via Solution Guidance Fine-Tuning [14.857842644246634]
本稿では,SG(Solution Guidance)およびSGFT(Solution-Guidance Fine-Tuning)について紹介する。
SGは、特定の計算ではなく、意味的および論理的なレベルでの問題理解と分解に焦点を当てている。
SGFTは、SLMを微調整して正確な問題解決ガイダンスを生成することができ、任意のSLMにプロンプトとして柔軟に供給することができる。
論文 参考訳(メタデータ) (2024-12-13T06:45:26Z) - Gap-Filling Prompting Enhances Code-Assisted Mathematical Reasoning [0.0]
パターン・オブ・シント(CoT)とプログラム・オブ・シント(PoT)ファインチューニング(PoT)は、LPMの知識を小さな言語モデル(SLM)に転送する一般的な方法である。
本稿では,SLMの問題解決プロセスを強化するために,新たな2段階のプロンプト戦略であるGap-Filling Prompting(GFP)を紹介する。
論文 参考訳(メタデータ) (2024-11-08T08:52:59Z) - Control Large Language Models via Divide and Conquer [94.48784966256463]
本稿では,Lexically Constrained Generation(LCG)に着目し,大規模言語モデル(LLM)のプロンプトベース制御による制御可能生成について検討する。
我々は,レキシカル制約を満たすためのLLMの性能を,プロンプトベース制御により評価し,下流アプリケーションでの有効性を検証した。
論文 参考訳(メタデータ) (2024-10-06T21:20:06Z) - RLSF: Reinforcement Learning via Symbolic Feedback [11.407319705797242]
証明フィードバック(RLSF)による強化学習(Reinforcement Learning)と呼ばれる新しい微調整パラダイムを提案する。
RLSFでは、微調整されたLLMはRLエージェントと見なされ、環境は推論やドメイン知識ツールへのアクセスが可能である。
RLSFに基づくLLMの微調整は、5つの異なるアプリケーションにおいて従来のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-26T18:49:59Z) - Competition-Level Problems are Effective LLM Evaluators [121.15880285283116]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。
まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。
驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文 参考訳(メタデータ) (2023-12-04T18:58:57Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。