論文の概要: TEMPO: Scaling Test-time Training for Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2604.19295v1
- Date: Tue, 21 Apr 2026 10:01:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.712081
- Title: TEMPO: Scaling Test-time Training for Large Reasoning Models
- Title(参考訳): TEMPO:大規模推論モデルのためのテストタイムのスケーリング
- Authors: Qingyang Zhang, Xinke Kong, Haitao Wu, Qinghua Hu, Minghao Wu, Baosong Yang, Yu Cheng, Yun Luo, Ganqu Cui, Changqing Zhang,
- Abstract要約: テストタイムトレーニング(TTT)は、推論時間中にラベルのないテストインスタンスにモデルパラメータを適用する。
TTTフレームワークであるTEMPOを提案する。これは、ラベル付きデータセット上で定期的な批評家の再検討を行い、ラベル付き質問に対するポリシー修正をインターリーブする。
- 参考スコア(独自算出の注目度): 87.61789183311856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time training (TTT) adapts model parameters on unlabeled test instances during inference time, which continuously extends capabilities beyond the reach of offline training. Despite initial gains, existing TTT methods for LRMs plateau quickly and do not benefit from additional test-time compute. Without external calibration, the self-generated reward signal increasingly drifts as the policy model evolves, leading to both performance plateaus and diversity collapse. We propose TEMPO, a TTT framework that interleaves policy refinement on unlabeled questions with periodic critic recalibration on a labeled dataset. By formalizing this alternating procedure through the Expectation-Maximization (EM) algorithm, we reveal that prior methods can be interpreted as incomplete variants that omit the crucial recalibration step. Reintroducing this step tightens the evidence lower bound (ELBO) and enables sustained improvement. Across diverse model families (Qwen3 and OLMO3) and reasoning tasks, TEMPO improves OLMO3-7B on AIME 2024 from 33.0% to 51.1% and Qwen3-14B from 42.3% to 65.8%, while maintaining high diversity.
- Abstract(参考訳): テストタイムトレーニング(TTT)は、オフライントレーニングの範囲を超えて継続的に機能を拡張する推論時間の間に、ラベルのないテストインスタンスにモデルパラメータを適用する。
初期ゲインにもかかわらず、RTMの既存のTTメソッドは迅速に動作し、追加のテスト時間計算の恩恵を受けない。
外部のキャリブレーションがなければ、政策モデルが進化するにつれて自己生成の報酬信号が徐々にドリフトし、パフォーマンスプラトーと多様性が崩壊する。
TTTフレームワークであるTEMPOを提案する。これは、ラベル付きデータセット上で定期的な批評家の再検討を行い、ラベル付き質問に対するポリシー修正をインターリーブする。
予測-最大化(EM)アルゴリズムによってこの交互化手順を定式化することにより、事前の手法を不完全変種として解釈し、重要な再校正ステップを省略できることを明らかにする。
このステップの再導入は、エビデンスローバウンド(ELBO)を締め付け、継続的な改善を可能にします。
様々なモデルファミリー(Qwen3とOLMO3)と推論タスクを含むTEMPOは、AIME 2024のOLMO3-7Bを33.0%から51.1%に、Qwen3-14Bを42.3%から65.8%に改善し、高い多様性を維持している。
関連論文リスト
- Prompt Augmentation Scales up GRPO Training on Mathematical Reasoning [19.22530791401551]
我々は、さまざまなテンプレートやフォーマットの下で推論トレースを生成するようにモデルに指示するトレーニング戦略である、プロンプト拡張を導入する。
我々は、KL正規化項がなければ、プロンプト拡張により、一定のデータセット下でのトレーニング期間の安定したスケーリングが可能になることを示す。
Qwen2.5-Math-1.5Bモデルでは、MATH Level 3-5データセットの迅速な拡張により、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-02-03T06:59:42Z) - Certain Head, Uncertain Tail: Expert-Sample for Test-Time Scaling in Fine-Grained MoE [27.8012190589404]
きめ細かいMoEは、層ごとに何百ものよく訓練されたエキスパートとトークンごとに複数の専門家がアクティベーションする。
ルータスコアは、ある程度の高信頼度専門家の頭と、不確実な低信頼度候補の尾を示す。
本稿では,不確実な尾に制御性を注入しながら高信頼度の選択を保存し,出力を不安定にすることなく多種多様な生成を可能にする訓練自由度手法であるExpert-Sampleを提案する。
論文 参考訳(メタデータ) (2026-02-02T18:39:33Z) - Transition Models: Rethinking the Generative Learning Objective [68.16330673177207]
有限時間間隔で状態遷移を解析的に定義する連続時間力学方程式を導入する。
これは、任意のステップ遷移に適応する新しい生成パラダイムである遷移モデル(TiM)をもたらす。
TiMは最先端のパフォーマンスを達成し、SD3.5 (8Bパラメータ)やFLUX.1 (12Bパラメータ)といった主要なモデルを超える。
論文 参考訳(メタデータ) (2025-09-04T17:05:59Z) - The Surprising Effectiveness of Test-Time Training for Few-Shot Learning [59.309477460893916]
言語モデル(LM)は、トレーニングディストリビューション内のタスクにおいて印象的なパフォーマンスを示しているが、しばしば構造的に新しいタスクで苦労している。
LMの推論と少数ショット学習能力を改善するメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
本研究は,新しいタスクにおける文脈内学習の限界を強調し,言語モデルの適応性を高めるためのテストタイムトレーニングの可能性を示した。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - RDumb: A simple approach that questions our progress in continual test-time adaptation [12.374649969346441]
テスト時間適応(TTA)では、事前トレーニングされたモデルをデプロイ時にデータ配布を変更するように更新することができる。
近年の長期にわたる連続的適応手法の提案と適用方法が提案されている。
最終的には、最先端の1つのメソッド以外はすべて崩壊し、非適応モデルよりもパフォーマンスが悪くなることに気付きました。
論文 参考訳(メタデータ) (2023-06-08T17:52:34Z) - On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。
TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文 参考訳(メタデータ) (2023-06-06T09:35:29Z) - A Comprehensive Survey on Test-Time Adaptation under Distribution Shifts [117.72709110877939]
テスト時間適応(TTA)は、事前訓練されたモデルをテスト中に、予測する前にラベルのないデータに適応する可能性がある。
TTAはテスト時間領域適応、テスト時間バッチ適応、オンラインテスト時間適応といったテストデータの形態に基づいて、いくつかの異なるグループに分類される。
論文 参考訳(メタデータ) (2023-03-27T16:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。