論文の概要: The Relationship Between Reasoning and Performance in Large Language Models -- o3 (mini) Thinks Harder, Not Longer
- arxiv url: http://arxiv.org/abs/2502.15631v1
- Date: Fri, 21 Feb 2025 17:59:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:10:39.275765
- Title: The Relationship Between Reasoning and Performance in Large Language Models -- o3 (mini) Thinks Harder, Not Longer
- Title(参考訳): 大規模言語モデルにおける推論とパフォーマンスの関係 - o3 (mini) はより困難で長続きしない
- Authors: Marthe Ballon, Andres Algaba, Vincent Ginis,
- Abstract要約: 我々はOmni-MATHベンチマークでo1-miniおよびo3-miniのチェーン長を解析した。
o3-mini (m) は, o1-mini よりも長い推論鎖を必要とすることなく, 精度が高いことがわかった。
この精度低下は、より熟練したモデルでは著しく小さく、新しい世代の推論モデルがテスト時間計算をより効果的に使用することを示唆している。
- 参考スコア(独自算出の注目度): 1.474723404975345
- License:
- Abstract: Large language models have demonstrated remarkable progress in mathematical reasoning, leveraging chain-of-thought and test-time compute scaling. However, many open questions remain regarding the interplay between reasoning token usage and accuracy gains. In particular, when comparing models across generations, it is unclear whether improved performance results from longer reasoning chains or more efficient reasoning. We systematically analyze chain-of-thought length across o1-mini and o3-mini variants on the Omni-MATH benchmark, finding that o3-mini (m) achieves superior accuracy without requiring longer reasoning chains than o1-mini. Moreover, we show that accuracy generally declines as reasoning chains grow across all models and compute settings, even when controlling for difficulty of the questions. This accuracy drop is significantly smaller in more proficient models, suggesting that new generations of reasoning models use test-time compute more effectively. Finally, we highlight that while o3-mini (h) achieves a marginal accuracy gain over o3-mini (m), it does so by allocating substantially more reasoning tokens across all problems, even the ones that o3-mini (m) can already solve. These findings provide new insights into the relationship between model capability and reasoning length, with implications for efficiency, scaling, and evaluation methodologies.
- Abstract(参考訳): 大規模言語モデルは、チェーン・オブ・ソートとテスト時間計算のスケーリングを利用して、数学的推論において顕著な進歩を見せている。
しかし、推論トークンの使用と精度向上の間の相互作用については、多くのオープンな疑問が残っている。
特に、世代間でモデルを比較する場合、より長い推論チェーンによるパフォーマンス改善の結果なのか、より効率的な推論結果なのかは不明だ。
我々は,Omni-MATHベンチマークにおいて,o1-miniおよびo3-mini変異体間のチェーン長を系統的に解析し,o3-mini(m)がo1-miniよりも長い推論鎖を必要とすることなく優れた精度が得られることを示した。
さらに,質問の難易度を抑えつつも,すべてのモデルにまたがって推論チェーンが成長するにつれて,精度が一般的に低下することを示す。
この精度低下は、より熟練したモデルでは著しく小さく、新しい世代の推論モデルがテスト時間計算をより効果的に使用することを示唆している。
最後に、o3-mini (h) は o3-mini (m) よりも限界精度が向上するのに対して、o3-mini (m) が既に解ける問題であっても、すべての問題にまたがるかなり多くの推論トークンを割り当てることによって、それを実現することを強調する。
これらの知見は、モデル能力と推論長の関係に関する新たな洞察を与え、効率性、スケーリング、評価方法論に影響を及ぼす。
関連論文リスト
- Small Models Struggle to Learn from Strong Reasoners [14.895026967556088]
小さなモデルは、大きなモデルからの長い連鎖推論や蒸留の恩恵を受けない。
我々は、長いCoTの例と短いCoTの例を組み合わせて推論の複雑さをバランスさせる戦略であるMix Distillationを提案する。
実験により, 混合蒸留は, いずれのデータ単独でのトレーニングよりも, 小型モデル推算性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-02-17T18:56:15Z) - Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? [61.85289698610747]
我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。
これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。
並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。
論文 参考訳(メタデータ) (2025-02-17T07:21:11Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高める
しかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか?
本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - The Jumping Reasoning Curve? Tracking the Evolution of Reasoning Performance in GPT-[n] and o-[n] Models on Multimodal Puzzles [29.214813685163218]
OpenAIのo1とo3のリリースは、大規模言語モデルの高度な推論機能へのパラダイムシフトを表している。
GPT-[n] および o-[n] 級数モデルの進化を、挑戦的なマルチモーダルパズル上で追跡する。
o1の優れた性能は、GPT-4oの計算コストの約750倍となり、効率性への懸念が高まった。
論文 参考訳(メタデータ) (2025-02-03T05:47:04Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - Cross-Model Comparative Loss for Enhancing Neuronal Utility in Language
Understanding [82.46024259137823]
幅広いタスクに対するクロスモデル比較損失を提案する。
3つの異なるNLUタスクから14のデータセットに対する広範な実験により比較損失の普遍的有効性を示す。
論文 参考訳(メタデータ) (2023-01-10T03:04:27Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。