論文の概要: Extending Test-Time Scaling: A 3D Perspective with Context, Batch, and Turn
- arxiv url: http://arxiv.org/abs/2511.15738v1
- Date: Tue, 18 Nov 2025 14:07:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.304388
- Title: Extending Test-Time Scaling: A 3D Perspective with Context, Batch, and Turn
- Title(参考訳): テスト時間スケーリングの拡張: コンテキスト、バッチ、ターンによる3D視点
- Authors: Chao Yu, Qixin Tan, Jiaxuan Gao, Shi Yu, Hong Lu, Xinting Yang, Zelai Xu, Yu Wang, Yi Wu, Eugene Vinitsky,
- Abstract要約: 推論強化学習(RL)は先頃、新たなスケーリング効果として、テスト時間スケーリングを発表した。
スケーリング効果のレンズによるテスト時間向上技術を再考する。
テスト時間推論のキャパシティを拡張するために,多次元テスト時間スケーリングの統一フレームワークを導入する。
- 参考スコア(独自算出の注目度): 17.841520309337998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning reinforcement learning (RL) has recently revealed a new scaling effect: test-time scaling. Thinking models such as R1 and o1 improve their reasoning accuracy at test time as the length of the reasoning context increases. However, compared with training-time scaling, test-time scaling is fundamentally limited by the limited context length of base models, which remains orders of magnitude smaller than the amount of tokens consumed during training. We revisit test-time enhancement techniques through the lens of scaling effect and introduce a unified framework of multi-dimensional test-time scaling to extend the capacity of test-time reasoning. Beyond conventional context-length scaling, we consider two additional dimensions: batch scaling, where accuracy improves with parallel sampling, and turn scaling, where iterative self-refinement enhances reasoning quality. Building on this perspective, we propose 3D test-time scaling, which integrates context, batch, and turn scaling. We show that: (1) each dimension demonstrates a test-time scaling effect, but with a bounded capacity; (2) combining all three dimensions substantially improves the reasoning performance of challenging testbeds, including IOI, IMO, and CPHO, and further benefits from human preference feedback; and (3) the human-in-the-loop framework naturally extends to a more open-ended domain, i.e., embodied learning, which enables the design of humanoid control behaviors.
- Abstract(参考訳): 推論強化学習(RL)は先頃、新たなスケーリング効果として、テスト時間スケーリングを発表した。
R1やo1のような思考モデルは、推論コンテキストの長さが増加するにつれて、テスト時の推論精度を向上させる。
しかし、トレーニング時間スケーリングと比較して、テストタイムスケーリングは基本的に、トレーニング中に使用するトークンの量よりも桁違いに小さいベースモデルのコンテキスト長によって制限される。
スケーリング効果のレンズによるテスト時間拡張手法を再検討し、テスト時間推論の能力を高めるために多次元テスト時間スケーリングの統一的なフレームワークを導入する。
従来のコンテキスト長のスケーリング以外にも、並列サンプリングによって精度が向上するバッチスケーリングと、反復的な自己制限によって推論品質が向上するターンスケーリングという、2つの追加の次元について検討する。
この観点から、コンテキスト、バッチ、ターンスケーリングを統合した3Dテストタイムスケーリングを提案します。
1) それぞれの次元がテストタイムのスケーリング効果を示すが,有界な能力を持つこと,(2) IOI, IMO, CPHOを含む挑戦的なテストベッドの推論性能を著しく向上させること,および, (3) 人の好みのフィードバックのさらなる恩恵,(3) 人文間相互作用の枠組みが自然に,よりオープンなドメイン,すなわち,人間的制御行動の設計を可能にする具体的学習に拡張できること,などが示される。
関連論文リスト
- ARISE: An Adaptive Resolution-Aware Metric for Test-Time Scaling Evaluation in Large Reasoning Models [102.4511331368587]
ARISE(Adaptive Resolution-Aware Scaling Evaluation)は、大規模推論モデルの試験時間スケーリングの有効性を評価するために設計された新しい尺度である。
我々は、様々な領域にわたる最先端の推論モデルを評価する包括的な実験を行う。
論文 参考訳(メタデータ) (2025-10-07T15:10:51Z) - Understanding the Role of Training Data in Test-Time Scaling [56.12341509545198]
線形回帰のための文脈内重み予測タスクを訓練した変圧器の試験時間スケーリング性能について検討した。
多様な、関連性があり、難しいタスクセットでのトレーニングが、テスト時間のスケーリングに最高のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2025-10-04T01:38:48Z) - It's Not That Simple. An Analysis of Simple Test-Time Scaling [1.9906814758497542]
以前の研究では、o1のようなモデルから抽出したモデルでこのスケーリング動作を複製するシンプルなテストタイムスケーリングが提案されていた。
本稿では, 簡単なテスト時間スケーリングの解析を行い, スケーリングの挙動は最大長を強制することによるスケールダウンに起因することが確認された。
論文 参考訳(メタデータ) (2025-07-19T00:28:10Z) - Scaling over Scaling: Exploring Test-Time Scaling Plateau in Large Reasoning Models [7.2703757624760526]
大規模推論モデル(LRM)は、内部テストタイムスケーリングによる推論性能の向上能力を示した。
これらのスケーリング境界を推し進めるにつれて、現実的な限界を理解し、最適なリソース割り当てを達成することが重要な課題となります。
本稿では,テストタイムスケーリングのスケーリングプレートを調査し,TTSPM(Test-Time Scaling Performance Model)を導入する。
論文 参考訳(メタデータ) (2025-05-26T20:58:45Z) - Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [108.07030347318624]
より長い思考の連鎖(CoTs)によるスケーリングは、特定の領域におけるLarge Language Models(LLMs)の推論性能を損なう可能性があることを示す。
深層思考に異なる推論手法を採用するためのモデルを教えるための思考-最適スケーリング戦略を提案する。
我々のQwen2.5-32B-Instructに基づく自己改善モデルは、様々なベンチマークで他の蒸留ベースの32B o1-likeモデルより優れています。
論文 参考訳(メタデータ) (2025-02-25T10:48:05Z) - Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? [61.85289698610747]
我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。
これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。
並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。
論文 参考訳(メタデータ) (2025-02-17T07:21:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。