論文の概要: Kinetics: Rethinking Test-Time Scaling Laws
- arxiv url: http://arxiv.org/abs/2506.05333v1
- Date: Thu, 05 Jun 2025 17:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.897397
- Title: Kinetics: Rethinking Test-Time Scaling Laws
- Title(参考訳): Kinetics: テスト時間スケーリングの法則を再考する
- Authors: Ranajoy Sadhukhan, Zhuoming Chen, Haizhong Zheng, Yang Zhou, Emma Strubell, Beidi Chen,
- Abstract要約: Kinetics Scaling Lawは、テストタイムの計算が、より小さなしきい値以上のモデルで使用される場合、より効果的であることを示唆している。
そこで本研究では,スパークアテンションに着目した新しいスケーリングパラダイムを提案し,コストを削減し,より長い世代とより並列なサンプルを実現する。
- 参考スコア(独自算出の注目度): 18.325591438335007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We rethink test-time scaling laws from a practical efficiency perspective, revealing that the effectiveness of smaller models is significantly overestimated. Prior work, grounded in compute-optimality, overlooks critical memory access bottlenecks introduced by inference-time strategies (e.g., Best-of-$N$, long CoTs). Our holistic analysis, spanning models from 0.6B to 32B parameters, reveals a new Kinetics Scaling Law that better guides resource allocation by incorporating both computation and memory access costs. Kinetics Scaling Law suggests that test-time compute is more effective when used on models above a threshold than smaller ones. A key reason is that in TTS, attention, rather than parameter count, emerges as the dominant cost factor. Motivated by this, we propose a new scaling paradigm centered on sparse attention, which lowers per-token cost and enables longer generations and more parallel samples within the same resource budget. Empirically, we show that sparse attention models consistently outperform dense counterparts, achieving over 60 points gains in low-cost regimes and over 5 points gains in high-cost regimes for problem-solving accuracy on AIME, encompassing evaluations on state-of-the-art MoEs. These results suggest that sparse attention is essential for realizing the full potential of test-time scaling because, unlike training, where parameter scaling saturates, test-time accuracy continues to improve through increased generation. The code is available at https://github.com/Infini-AI-Lab/Kinetics.
- Abstract(参考訳): 実効性の観点からテスト時間スケーリング法則を再考し、より小さなモデルの有効性が著しく過大評価されていることを示した。
計算最適化に基づく以前の作業は、推論時間戦略(例えば、Best-of-N$、long CoTs)によって導入された重要なメモリアクセスボトルネックを見落としている。
我々の全体分析は、0.6Bから32Bパラメータのモデルにまたがって、計算とメモリアクセスの両方のコストを組み込むことで、リソース割り当てをより良くガイドする、新しいKineetics Scaling Lawを明らかにします。
Kinetics Scaling Lawは、テストタイムの計算が、より小さなしきい値以上のモデルで使用される場合、より効果的であることを示唆している。
主な理由は、TSにおいて、パラメータ数ではなく注意が主なコスト要因として現れることである。
そこで本研究では,スパースアテンションに着目した新たなスケーリングパラダイムを提案し,コストを削減し,リソース予算内でより長い世代とより並列なサンプルを実現する。
実験により,AIMEにおける課題解決の精度向上のために,高コストレジームにおいて60ポイント以上,高コストレジームにおいて5ポイント以上を達成し,最先端MoEの評価を包含する,疎度アテンションモデルが高密度レジームを継続的に上回ることを示す。
これらの結果は、パラメータスケーリングが飽和するトレーニングとは異なり、テストタイムの精度は、生成の増大によって改善され続けているため、テストタイムスケーリングの潜在能力を十分に実現するためには、疎い注意が必要であることを示唆している。
コードはhttps://github.com/Infini-AI-Lab/Kinetics.comで公開されている。
関連論文リスト
- Scaling over Scaling: Exploring Test-Time Scaling Pareto in Large Reasoning Models [7.2703757624760526]
テスト時間スケーリング性能モデル(TTSPM)について紹介する。
このような拡張スケーリング、並列スケーリング、シーケンシャルスケーリングの2つの基本パラダイムを理論的に分析する。
我々は, AIME, MATH-500, GPQAなど, 挑戦的推論ベンチマークに関する理論的知見を検証した。
論文 参考訳(メタデータ) (2025-05-26T20:58:45Z) - Guided by Gut: Efficient Test-Time Scaling with Reinforced Intrinsic Confidence [38.30075427255948]
大規模言語モデル(LLM)推論を強化するためのTTS(Test-Time Scaling)手法は、しばしばかなりの計算コストを発生させる。
本稿では,外部検証モデルに代えてPRMレベルの性能を実現する,効率的な自己誘導型TTSフレームワークである Guided by Gut (GG) を紹介する。
論文 参考訳(メタデータ) (2025-05-23T18:19:09Z) - Making Small Language Models Efficient Reasoners: Intervention, Supervision, Reinforcement [22.801244105119025]
精度と計算を効果的にトレードオフすることで、小型モデルによるトークン効率の推論を改善する新しいアルゴリズムを提案する。
まず、SFT後のモデルが推論過程の最適停止点を決定するのに失敗し、冗長かつ反復的な出力が得られることを示す。
MATH500、AMC、AIME24、OlympiadBenchの4つの推論ベンチマークの実験は、TSがs1の予算強制アプローチと比較して非常に効果的であることを示した。
論文 参考訳(メタデータ) (2025-05-12T18:04:39Z) - Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? [61.85289698610747]
我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。
これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。
並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。
論文 参考訳(メタデータ) (2025-02-17T07:21:11Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Deep Equilibrium Optical Flow Estimation [80.80992684796566]
最近のSOTA(State-of-the-art)光フローモデルでは、従来のアルゴリズムをエミュレートするために有限ステップの更新操作を使用する。
これらのRNNは大きな計算とメモリオーバーヘッドを課し、そのような安定した推定をモデル化するために直接訓練されていない。
暗黙的層の無限レベル固定点として直接流れを解く手法として,Deep equilibrium Flow estimatorを提案する。
論文 参考訳(メタデータ) (2022-04-18T17:53:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。