論文の概要: Let Me Think! A Long Chain-of-Thought Can Be Worth Exponentially Many Short Ones
- arxiv url: http://arxiv.org/abs/2505.21825v1
- Date: Tue, 27 May 2025 23:23:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.327536
- Title: Let Me Think! A Long Chain-of-Thought Can Be Worth Exponentially Many Short Ones
- Title(参考訳): 長きにわたのチェーンは、指数関数的に多くのショートショートショートショートショートショートショートショートショートショートショートショートショートショートショートショートショートショートショートショートショートショートショートショートショートショートショートショートショートショートショートショート
- Authors: Parsa Mirtaheri, Ezra Edelman, Samy Jelassi, Eran Malach, Enric Boix-Adsera,
- Abstract要約: 逐次スケーリングが並列スケーリングよりも指数関数的な優位性をもたらすような推論設定の存在を示す。
我々は,様々な言語モデルを用いた包括的実験により理論的知見を検証した。
- 参考スコア(独自算出の注目度): 19.390296419822562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inference-time computation has emerged as a promising scaling axis for improving large language model reasoning. However, despite yielding impressive performance, the optimal allocation of inference-time computation remains poorly understood. A central question is whether to prioritize sequential scaling (e.g., longer chains of thought) or parallel scaling (e.g., majority voting across multiple short chains of thought). In this work, we seek to illuminate the landscape of test-time scaling by demonstrating the existence of reasoning settings where sequential scaling offers an exponential advantage over parallel scaling. These settings are based on graph connectivity problems in challenging distributions of graphs. We validate our theoretical findings with comprehensive experiments across a range of language models, including models trained from scratch for graph connectivity with different chain of thought strategies as well as large reasoning models.
- Abstract(参考訳): 推論時間計算は、大規模言語モデル推論を改善するための有望なスケーリング軸として登場した。
しかし、優れた性能を得られるにもかかわらず、推論時間計算の最適割り当てはいまだに理解されていない。
中心的な問題は、シーケンシャルなスケーリング(例えば、長い思考の連鎖)を優先するか、並行なスケーリング(例えば、複数の短い思考の連鎖で過半数の投票)を優先するかである。
本研究では, 逐次スケーリングが並列スケーリングよりも指数関数的な優位性をもたらすような推論設定の存在を実証することにより, テスト時間スケーリングの展望を照らし出すことを目的とする。
これらの設定は、グラフの分散に挑戦する際のグラフ接続の問題に基づいている。
我々は、さまざまな思考戦略とグラフ接続のためのスクラッチから訓練されたモデルや、大きな推論モデルを含む、様々な言語モデルにわたる包括的な実験により、理論的な知見を検証した。
関連論文リスト
- Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Do Larger Language Models Imply Better Reasoning? A Pretraining Scaling Law for Reasoning [89.17086632436363]
本研究では,実世界の大規模知識グラフの構造と分布を再現する合成マルチホップ推論環境を提案する。
我々の推論タスクは、グラフの欠落したエッジを補完することであり、これは高度なマルチホップ推論を必要とし、現実世界の推論シナリオを模倣する。
特定の知識グラフに対して最適なモデルサイズを予測するために,知識グラフ探索エントロピーを最適モデルサイズに線形にマッピングする経験的スケーリングを求める。
論文 参考訳(メタデータ) (2025-04-04T17:57:22Z) - Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。
より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文 参考訳(メタデータ) (2025-02-25T10:48:05Z) - How Do Large Language Monkeys Get Their Power (Laws)? [20.245443422985154]
単純な数学的計算は、各問題に対して、失敗率は試行回数とともに指数関数的に減少する、と予測する。
次に、プロブレムごとの指数関数スケーリングを集約スケーリングと整合できることを示すことで、この問題に答える。
私たちの研究は、推論計算のスケーリングによって、ニューラルネットワークモデルのパフォーマンスがどのように改善されるか、より深く理解するのに役立ちます。
論文 参考訳(メタデータ) (2025-02-24T19:01:47Z) - Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? [61.85289698610747]
我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。
これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。
並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。
論文 参考訳(メタデータ) (2025-02-17T07:21:11Z) - Beyond Chain-of-Thought, Effective Graph-of-Thought Reasoning in Language Models [74.40196814292426]
本稿では,人間の思考過程をチェーンとしてだけでなく,グラフとしてモデル化するグラフ・オブ・ソート(GoT)推論を提案する。
GoTは人間の思考の連続しない性質を捉え、思考プロセスのより現実的なモデリングを可能にします。
テキストのみの推論タスクとマルチモーダル推論タスクでGoTの性能を評価する。
論文 参考訳(メタデータ) (2023-05-26T02:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。