論文の概要: The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs
- arxiv url: http://arxiv.org/abs/2509.09677v1
- Date: Thu, 11 Sep 2025 17:59:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.515455
- Title: The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs
- Title(参考訳): 最小化リターンのイラシオン:LLMにおける長期水平実行の測定
- Authors: Akshit Sinha, Arvindh Arun, Shashwat Goel, Steffen Staab, Jonas Geiping,
- Abstract要約: 単純なタスクが長引くときの大規模な言語モデルの失敗は、推論できないというよりも、実行時のミスから生じるものだ、と我々は主張する。
小型モデルが100%単ターン精度を持つ場合であっても,より大きなモデルの方がはるかに多くのターンを正確に実行できることが判明した。
一つのターンで実行できるタスクの長さについて、フロンティア思考モデルをベンチマークすることで、結論付けます。
- 参考スコア(独自算出の注目度): 39.5095344448076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Does continued scaling of large language models (LLMs) yield diminishing returns? Real-world value often stems from the length of task an agent can complete. We start this work by observing the simple but counterintuitive fact that marginal gains in single-step accuracy can compound into exponential improvements in the length of a task a model can successfully complete. Then, we argue that failures of LLMs when simple tasks are made longer arise from mistakes in execution, rather than an inability to reason. We propose isolating execution capability, by explicitly providing the knowledge and plan needed to solve a long-horizon task. We find that larger models can correctly execute significantly more turns even when small models have 100\% single-turn accuracy. We observe that the per-step accuracy of models degrades as the number of steps increases. This is not just due to long-context limitations -- curiously, we observe a self-conditioning effect -- models become more likely to make mistakes when the context contains their errors from prior turns. Self-conditioning does not reduce by just scaling the model size. In contrast, recent thinking models do not self-condition, and can also execute much longer tasks in a single turn. We conclude by benchmarking frontier thinking models on the length of task they can execute in a single turn. Overall, by focusing on the ability to execute, we hope to reconcile debates on how LLMs can solve complex reasoning problems yet fail at simple tasks when made longer, and highlight the massive benefits of scaling model size and sequential test-time compute for long-horizon tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)の継続的なスケーリングはリターンを減少させるだろうか?
実世界の値はエージェントが完了できるタスクの長さに由来することが多い。
この研究は、単一ステップ精度の限界ゲインが、モデルが正常に完了できるタスクの長さの指数的な改善に結びつくという、単純だが直観的な事実を観察することによって開始する。
そして、単純なタスクが実行時に発生するLCMの失敗は、推論できないというよりも、実行時のミスによるものである、と論じる。
本稿では,長期的課題の解決に必要な知識と計画を明確に提供することによって,実行能力を分離することを提案する。
小型モデルが100倍の単ターン精度を持つ場合であっても,より大規模なモデルの方がはるかに多くのターンを正確に実行できることが判明した。
ステップ数が増えるにつれてモデルのステップ毎の精度が低下するのを観察する。
これは、コンテキストの長い制限(興味深いことに、私たちはセルフコンディショニング効果を観察します)が原因ではなく、コンテキストが前のターンからのエラーを含んでいる場合、モデルは間違いを犯しがちになります。
自己条件付けは、単にモデルサイズをスケールするだけでは減少しない。
対照的に、最近の思考モデルは自己条件ではなく、1ターンでずっと長いタスクを実行できる。
一つのターンで実行できるタスクの長さについて、フロンティア思考モデルをベンチマークすることで、結論付けます。
全体として、実行能力に焦点をあてることで、LLMが複雑な推論問題をどのように解決できるかという議論を、より長い時間をかけて単純なタスクで失敗するかという議論を解決し、長期のタスクに対するモデルサイズとシーケンシャルなテストタイム計算のスケールアップによる大きなメリットを強調したいと考えています。
関連論文リスト
- Frontier LLMs Still Struggle with Simple Reasoning Tasks [53.497499123166804]
この研究は、フロンティア言語モデルの性能を、幅広い「容易」推論問題に対して研究する。
計算,一階述語論理,証明木,旅行計画など,手続き的に生成された単純な推論タスクのスイートを作成します。
最先端の思考モデルでさえ、このような問題や同様の理由で一貫して失敗することを示します。
論文 参考訳(メタデータ) (2025-07-09T22:22:49Z) - Overclocking LLM Reasoning: Monitoring and Controlling Thinking Path Lengths in LLMs [52.663816303997194]
回答の質に影響を与える重要な要因は思考段階の長さである。
本稿では, LLM が推論の長さを理解し, 制御するメカニズムを探求し, 活用する。
以上の結果から,この「オーバークロック」手法は過度な思考を軽減し,解答精度を向上し,推論遅延を低減することが示唆された。
論文 参考訳(メタデータ) (2025-06-08T17:54:33Z) - Incentivizing LLMs to Self-Verify Their Answers [20.2584779107763]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な進歩を示している。
自明な回答を自己検証するために LLM をインセンティブとするフレームワークを提案する。
我々はQwen2.5-Math-7BとDeepSeek-R1-Distill-Qwen-1.5Bに基づいて自己検証モデルを訓練する。
論文 参考訳(メタデータ) (2025-06-02T06:54:29Z) - Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead [33.011660907969706]
推論時間スケーリングは、大きな言語モデルの推論能力を高めることができる。
本研究では,9つの最先端モデルと8つの課題にまたがるスケーリング手法の利点と限界について検討する。
論文 参考訳(メタデータ) (2025-03-31T23:40:28Z) - Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。
より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文 参考訳(メタデータ) (2025-02-25T10:48:05Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z) - First-Step Advantage: Importance of Starting Right in Multi-Step Math Reasoning [11.75364271481855]
言語モデルは、予測のための合理性を生成することを学ぶことによって、複雑な推論タスクをよりよく解決することができる。
より小さなモデル、特に修正された場合には、彼らが他の方法で苦労したであろうタスクを解決できることを観察します。
我々はQuestCoTを提案し、より小さなモデルがまず、推論の連鎖で進む前に、どのように開始するかを自問する。
論文 参考訳(メタデータ) (2023-11-14T06:45:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。