論文の概要: Compute Aligned Training: Optimizing for Test Time Inference
- arxiv url: http://arxiv.org/abs/2604.24957v1
- Date: Mon, 27 Apr 2026 19:52:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.579996
- Title: Compute Aligned Training: Optimizing for Test Time Inference
- Title(参考訳): Compute Aligned Training: テスト時間推論の最適化
- Authors: Adam Ousherovitch, Ambuj Tewari,
- Abstract要約: 大規模言語モデル(LLM)のパフォーマンスを向上するための強力なメカニズムとして、テスト時間計算のスケーリングが登場した。
標準訓練後パラダイム、SFT(Supervised Fine-Tuning)、RL(Reinforcement Learning)は、基本方針の下で個々のサンプルの可能性を最適化する。
本稿では,テストタイム戦略とトレーニング目標を整合させるコンピュータアラインドトレーニングを提案する。
- 参考スコア(独自算出の注目度): 23.99156538891498
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling test-time compute has emerged as a powerful mechanism for enhancing Large Language Model (LLM) performance. However, standard post-training paradigms, Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL), optimize the likelihood of individual samples under a base policy, creating a misalignment with test time procedures that rely on aggregated or filtered outputs. In this work, we propose Compute Aligned Training, which aligns training objectives with test-time strategies. By conceptualizing inference strategies as operators on the base policy, we derive new loss functions that maximize performance when said strategies are applied. We instantiate such loss functions for SFT and RL across common test time strategies. Finally, we provide empirical evidence that this training method substantially improves test time scaling over standard training.
- Abstract(参考訳): 大規模言語モデル(LLM)のパフォーマンスを向上するための強力なメカニズムとして、テスト時間計算のスケーリングが登場した。
しかし、標準の訓練後パラダイムである"Supervised Fine-Tuning (SFT)"と"Reinforcement Learning (RL)"は、基本方針の下で個々のサンプルの可能性を最適化し、集約された出力やフィルタリングされた出力に依存するテスト時間手順との相違を生み出す。
本研究では,テスト時間戦略とトレーニング目標を整合させるCompute Aligned Trainingを提案する。
基本方針に基づいて推論戦略を演算子として概念化することにより,その戦略を適用した際の性能を最大化する新たな損失関数を導出する。
SFT と RL の損失関数を、一般的なテスト時間戦略でインスタンス化する。
最後に,本手法が標準トレーニングよりもテスト時間スケーリングを大幅に改善することを示す実証的証拠を提供する。
関連論文リスト
- Test-time Offline Reinforcement Learning on Goal-related Experience [50.94457794664909]
基礎モデルの研究では、テストタイムトレーニングによってパフォーマンスが大幅に改善できることが示されている。
本稿では、オフラインデータセットから現在の状態への関連性に応じて遷移を選択する、新しい自己教師型データ選択基準を提案する。
目標条件付きテストタイムトレーニング(GC-TTT)アルゴリズムは、評価中にこのルーチンを後退水平方式で適用し、現在の軌道にポリシーを適用する。
論文 参考訳(メタデータ) (2025-07-24T21:11:39Z) - AdaLRS: Loss-Guided Adaptive Learning Rate Search for Efficient Foundation Model Pretraining [12.630306478872043]
オンライン最適学習率探索を行うプラグイン・アンド・プレイ適応学習率探索アルゴリズムである textbfAdaLRS を提案する。
実験により,AdaLRSは最適近傍の最適学習率を顕著な効率と有効性で調整することが示された。
論文 参考訳(メタデータ) (2025-06-16T09:14:01Z) - A Snapshot of Influence: A Local Data Attribution Framework for Online Reinforcement Learning [45.19254609437857]
オンライン強化学習(RL)は、複雑で安全クリティカルな領域で優れているが、サンプルの非効率性、トレーニング不安定性、限定的な解釈可能性に悩まされている。
データ属性は、モデルの振る舞いをトレーニングサンプルに遡る、原則化された方法を提供する。
本稿では、オンラインRLトレーニングのためのアルゴリズムである反復的影響ベースのフィルタリング(IIF)を提案し、ポリシー更新を洗練するための経験的フィルタリングを反復的に行う。
論文 参考訳(メタデータ) (2025-05-25T19:25:57Z) - Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。
有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。
本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文 参考訳(メタデータ) (2025-04-10T16:14:17Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。
SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。
SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。