論文の概要: The Relationship Between Reasoning and Performance in Large Language Models -- o3 (mini) Thinks Harder, Not Longer
- arxiv url: http://arxiv.org/abs/2502.15631v1
- Date: Fri, 21 Feb 2025 17:59:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 23:44:09.990086
- Title: The Relationship Between Reasoning and Performance in Large Language Models -- o3 (mini) Thinks Harder, Not Longer
- Title(参考訳): 大規模言語モデルにおける推論とパフォーマンスの関係 - o3 (mini) はより困難で長続きしない
- Authors: Marthe Ballon, Andres Algaba, Vincent Ginis,
- Abstract要約: 我々はOmni-MATHベンチマークでo1-miniおよびo3-miniのチェーン長を解析した。
o3-mini (m) は, o1-mini よりも長い推論鎖を必要とすることなく, 精度が高いことがわかった。
この精度低下は、より熟練したモデルでは著しく小さく、新しい世代の推論モデルがテスト時間計算をより効果的に使用することを示唆している。
- 参考スコア(独自算出の注目度): 1.474723404975345
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models have demonstrated remarkable progress in mathematical reasoning, leveraging chain-of-thought and test-time compute scaling. However, many open questions remain regarding the interplay between reasoning token usage and accuracy gains. In particular, when comparing models across generations, it is unclear whether improved performance results from longer reasoning chains or more efficient reasoning. We systematically analyze chain-of-thought length across o1-mini and o3-mini variants on the Omni-MATH benchmark, finding that o3-mini (m) achieves superior accuracy without requiring longer reasoning chains than o1-mini. Moreover, we show that accuracy generally declines as reasoning chains grow across all models and compute settings, even when controlling for difficulty of the questions. This accuracy drop is significantly smaller in more proficient models, suggesting that new generations of reasoning models use test-time compute more effectively. Finally, we highlight that while o3-mini (h) achieves a marginal accuracy gain over o3-mini (m), it does so by allocating substantially more reasoning tokens across all problems, even the ones that o3-mini (m) can already solve. These findings provide new insights into the relationship between model capability and reasoning length, with implications for efficiency, scaling, and evaluation methodologies.
- Abstract(参考訳): 大規模言語モデルは、チェーン・オブ・ソートとテスト時間計算のスケーリングを利用して、数学的推論において顕著な進歩を見せている。
しかし、推論トークンの使用と精度向上の間の相互作用については、多くのオープンな疑問が残っている。
特に、世代間でモデルを比較する場合、より長い推論チェーンによるパフォーマンス改善の結果なのか、より効率的な推論結果なのかは不明だ。
我々は,Omni-MATHベンチマークにおいて,o1-miniおよびo3-mini変異体間のチェーン長を系統的に解析し,o3-mini(m)がo1-miniよりも長い推論鎖を必要とすることなく優れた精度が得られることを示した。
さらに,質問の難易度を抑えつつも,すべてのモデルにまたがって推論チェーンが成長するにつれて,精度が一般的に低下することを示す。
この精度低下は、より熟練したモデルでは著しく小さく、新しい世代の推論モデルがテスト時間計算をより効果的に使用することを示唆している。
最後に、o3-mini (h) は o3-mini (m) よりも限界精度が向上するのに対して、o3-mini (m) が既に解ける問題であっても、すべての問題にまたがるかなり多くの推論トークンを割り当てることによって、それを実現することを強調する。
これらの知見は、モデル能力と推論長の関係に関する新たな洞察を与え、効率性、スケーリング、評価方法論に影響を及ぼす。
関連論文リスト
- Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and correctness in LLMs [52.405085773954596]
大規模な言語モデル(LLM)は、単純な問題を克服し、不要に長いアウトプットを生成し、より難しいものを過小評価する傾向にある。
これは、モデルが問題の難しさを誤認し、応答長を適切に調整できないことを示唆している。
実験の結果, 許容精度を維持しつつ, 生成時間を大幅に短縮できることがわかった。
論文 参考訳(メタデータ) (2025-04-30T18:48:06Z) - ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning [1.170732359523702]
OpenAI o3やDeepSeek-R1のような推論モデルは、推論集約的なタスクに対して強力なパフォーマンスを示している。
長い推論トレースは、複雑な問題に対する解経路のより徹底的な探索を促進する。
ShorterBetterは、推論言語モデルによる最適なCoT長の発見を可能にする、シンプルで効果的な強化学習手法である。
論文 参考訳(メタデータ) (2025-04-30T07:04:19Z) - M1: Towards Scalable Test-Time Compute with Mamba Reasoning Models [72.75501495786297]
本稿では,Mambaアーキテクチャ上に構築されたハイブリッド線形RNN推論モデルM1を紹介する。
実験結果から,M1は従来の線形RNNモデルよりも優れていただけでなく,最先端のDeepSeek R1蒸留推論モデルの性能とも一致していることがわかった。
論文 参考訳(メタデータ) (2025-04-14T17:38:25Z) - ThinkEdit: Interpretable Weight Editing to Mitigate Overly Short Thinking in Reasoning Models [16.407923457296235]
本研究では、推論モデルの隠れ表現に、推論の長さがどのように埋め込まれているかを検討する。
我々は、過剰に短い推論の問題を軽減するために、シンプルだが効果的な重み付けアプローチであるThinkEditを紹介した。
論文 参考訳(メタデータ) (2025-03-27T23:53:45Z) - Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。
より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文 参考訳(メタデータ) (2025-02-25T10:48:05Z) - Unveiling Reasoning Thresholds in Language Models: Scaling, Fine-Tuning, and Interpretability through Attention Maps [3.8936716676293917]
本研究では,異なるモデルサイズと訓練データを持つデコーダのみの変換言語モデルのコンテキスト内学習能力について検討する。
我々は,複数の質問応答におけるコモンセンス推論や帰納的推論といったタスクにおいて,推論性能が著しく向上する重要なパラメータしきい値(160億)を同定する。
論文 参考訳(メタデータ) (2025-02-21T00:48:32Z) - Small Models Struggle to Learn from Strong Reasoners [14.895026967556088]
小さなモデルは、大きなモデルからの長い連鎖推論や蒸留の恩恵を受けない。
我々は、長いCoTの例と短いCoTの例を組み合わせて推論の複雑さをバランスさせる戦略であるMix Distillationを提案する。
実験により, 混合蒸留は, いずれのデータ単独でのトレーニングよりも, 小型モデル推算性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-02-17T18:56:15Z) - Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? [61.85289698610747]
我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。
これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。
並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。
論文 参考訳(メタデータ) (2025-02-17T07:21:11Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高める
しかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか?
本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - The Jumping Reasoning Curve? Tracking the Evolution of Reasoning Performance in GPT-[n] and o-[n] Models on Multimodal Puzzles [29.214813685163218]
OpenAIのo1とo3のリリースは、大規模言語モデルの高度な推論機能へのパラダイムシフトを表している。
GPT-[n] および o-[n] 級数モデルの進化を、挑戦的なマルチモーダルパズル上で追跡する。
o1の優れた性能は、GPT-4oの計算コストの約750倍となり、効率性への懸念が高まった。
論文 参考訳(メタデータ) (2025-02-03T05:47:04Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。