論文の概要: It's Not That Simple. An Analysis of Simple Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2507.14419v1
- Date: Sat, 19 Jul 2025 00:28:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.879386
- Title: It's Not That Simple. An Analysis of Simple Test-Time Scaling
- Title(参考訳): それほど単純ではない。単純なテスト時間スケーリングの分析
- Authors: Guojun Wu,
- Abstract要約: 以前の研究では、o1のようなモデルから抽出したモデルでこのスケーリング動作を複製するシンプルなテストタイムスケーリングが提案されていた。
本稿では, 簡単なテスト時間スケーリングの解析を行い, スケーリングの挙動は最大長を強制することによるスケールダウンに起因することが確認された。
- 参考スコア(独自算出の注目度): 1.9906814758497542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior work proposed simple test-time scaling, a method for replicating this scaling behavior with models distilled from o1-like models by manually controlling test-time compute: either scaling down by enforcing a maximum length or scaling up by iteratively appending "Wait" when the model is about to terminate its generation. This paper presents an analysis of simple test-time scaling and finds that the scaling behavior is largely attributed to scaling down by enforcing a maximum length. In contrast, fine-tuning on long CoT data distilled from o1-like models has no significant impact on scaling behavior, and scaling up by appending "Wait" leads to inconsistencies, as the model may oscillate between solutions. A key distinction exists between scaling down by enforcing a maximum length and scaling up test-time compute in o1-like models, such as DeepSeek-R1\@. These models are typically allowed to utilize as much compute as needed, with the only constraint being the model's maximum supported length. By learning to naturally scale up test-time compute during reinforcement learning, o1-like models surpass their peak performance when scaling up. In contrast, simple test-time scaling progressively imposes a lower upper limit on model performance as it scales down. While replicating the test-time scaling behavior of o1 models can be straightforward by scaling down, it is crucial to recognize that the goal of scaling test-time compute is to unlock higher performance -- beyond what the model could originally achieve -- rather than merely reproducing the appearance of scaling behavior.
- Abstract(参考訳): これは、テストタイム計算を手動で制御することで、o1のようなモデルから抽出したモデルでこのスケーリング動作を複製する方法である。
本稿では, 簡単なテスト時間スケーリングの解析を行い, スケーリングの挙動は最大長を強制することによるスケールダウンに起因することが確認された。
対照的に、o1-likeモデルから抽出された長いCoTデータの微調整は、スケーリングの挙動に大きな影響を与えず、"Wait"を付加することで、モデルがソリューション間で振動する可能性があるため、不整合が生じる。
最大長を強制することによるスケールダウンと、DeepSeek-R1\@のようなo1のようなモデルでのテスト時間計算のスケールアップとの間には、大きな違いがある。
これらのモデルは通常、必要に応じて多くの計算を使用できるが、唯一の制約はモデルがサポートする最大長である。
強化学習中のテスト時間計算を自然にスケールアップすることを学ぶことで、o1のようなモデルはスケールアップ時のピークパフォーマンスを上回っます。
対照的に、単純なテストタイムのスケーリングは、スケールダウンするにつれて、モデルパフォーマンスに徐々に低い上限を課します。
o1モデルのテストタイムのスケーリング動作の複製は、スケールダウンによって簡単に行うことができるが、テストタイムの計算のスケーリングの目標は、単にスケーリング動作の外観を再現するのではなく、モデルが本来達成できたもの以上の、より高いパフォーマンスをアンロックすることだ、と認識することが重要である。
関連論文リスト
- Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。
より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文 参考訳(メタデータ) (2025-02-25T10:48:05Z) - Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? [61.85289698610747]
我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。
これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。
並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。
論文 参考訳(メタデータ) (2025-02-17T07:21:11Z) - s1: Simple test-time scaling [148.4204982041058]
テスト時間スケーリングは、パフォーマンスを改善するために余分なテスト時間計算を使用する言語モデリングに対する、有望な新しいアプローチである。
テストタイムのスケーリングと強力な推論性能を実現するための最もシンプルなアプローチを探します。
論文 参考訳(メタデータ) (2025-01-31T18:48:08Z) - Scaling Inference-Efficient Language Models [3.271571137474847]
モデルアーキテクチャは推論レイテンシに影響を与えており、同じサイズのモデルでは最大3.5倍のレイテンシの差が生じる可能性がある。
我々は、モデルパラメータ数、トレーニングトークンの数、モデルアーキテクチャを共最適化するために、Chinchillaスケーリングの法則を変更します。
下流タスクの精度を維持しつつ、推論遅延を1.8倍改善するMorph-1Bモデルをリリースする。
論文 参考訳(メタデータ) (2025-01-30T03:16:44Z) - A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。
我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2024-10-15T17:59:10Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Inverse scaling can become U-shaped [126.64521446943155]
言語モデルのスケールアップは、幅広い下流タスクのパフォーマンスを改善するために実証的に示されている。
本稿では,これらの逆スケーリングタスクについて詳しく検討する。
Inverse Scaling Prizeの5倍の計算量でトレーニングされた最大540Bパラメータのモデルを評価する。
論文 参考訳(メタデータ) (2022-11-03T17:26:44Z) - Scaling Laws Under the Microscope: Predicting Transformer Performance
from Small Scale Experiments [42.793379799720434]
本稿では,スケーリング法則がモデル開発の促進に有効かどうかを考察する。
スケーリング法則は、いくつかのNLPタスクにおいて微調整時に現れる。
スケーリング法則が存在するタスクに対しては、より大きなモデルのパフォーマンスを予測するために使用することができる。
論文 参考訳(メタデータ) (2022-02-13T19:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。