論文の概要: FLOP-Efficient Training: Early Stopping Based on Test-Time Compute Awareness
- arxiv url: http://arxiv.org/abs/2601.01332v1
- Date: Sun, 04 Jan 2026 02:33:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.233441
- Title: FLOP-Efficient Training: Early Stopping Based on Test-Time Compute Awareness
- Title(参考訳): FLOP-Efficient Training: Test-Time Compute Awarenessに基づく早期停止
- Authors: Hossam Amer, Maryam Dialameh, Hossein Rajabzadeh, Walid Ahmed, Weiwei Zhang, Yang Liu,
- Abstract要約: FLOPで測定されたトレーニング計算のスケーリングは、大規模な言語モデルの精度を向上させるために長年にわたって行われてきた。
我々は、中間チェックポイントとそれに対応するTTC構成が、完全に訓練されたモデルの正確さに一致または超えるようなTTC対応トレーニングを導入する。
この知見に基づいて,チェックポイントとTTC構成を共同で選択し,精度を犠牲にすることなくトレーニング計算を最小化する早期停止アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 5.2612663135589175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling training compute, measured in FLOPs, has long been shown to improve the accuracy of large language models, yet training remains resource-intensive. Prior work shows that increasing test-time compute (TTC)-for example through iterative sampling-can allow smaller models to rival or surpass much larger ones at lower overall cost. We introduce TTC-aware training, where an intermediate checkpoint and a corresponding TTC configuration can together match or exceed the accuracy of a fully trained model while requiring substantially fewer training FLOPs. Building on this insight, we propose an early stopping algorithm that jointly selects a checkpoint and TTC configuration to minimize training compute without sacrificing accuracy. To make this practical, we develop an efficient TTC evaluation method that avoids exhaustive search, and we formalize a break-even bound that identifies when increased inference compute compensates for reduced training compute. Experiments demonstrate up to 92\% reductions in training FLOPs while maintaining and sometimes remarkably improving accuracy. These results highlight a new perspective for balancing training and inference compute in model development, enabling faster deployment cycles and more frequent model refreshes. Codes will be publicly released.
- Abstract(参考訳): FLOPで測定されたトレーニング計算のスケーリングは、大規模な言語モデルの精度向上に長年使われてきたが、トレーニングはリソース集約型のままである。
以前の研究は、例えば反復サンプリングによるテスト時間計算(TTC)の増加は、より小さなモデルでより大規模なモデルに対抗したり、全体のコストを下げることを可能にすることを示していた。
本稿では,中間チェックポイントとそれに対応するTTC構成を併用して,完全に訓練されたモデルの精度を向上すると同時に,FLOPを著しく少なくするTTC対応トレーニングを提案する。
この知見に基づいて,チェックポイントとTTC構成を共同で選択し,精度を犠牲にすることなくトレーニング計算を最小化する早期停止アルゴリズムを提案する。
そこで本研究では,効率的なTTC評価手法を開発し,トレーニング計算の削減のために,推論計算が増大した場合に識別するブレーク・エクイティ・バウンダリを定式化する。
実験では、FLOPのトレーニングを最大92%削減し、同時に精度を著しく向上させる。
これらの結果は、モデル開発におけるトレーニングと推論計算のバランスをとるための新しい視点を強調し、より高速なデプロイメントサイクルとより頻繁なモデルリフレッシュを可能にします。
コードは公開されます。
関連論文リスト
- Understanding the Role of Training Data in Test-Time Scaling [56.12341509545198]
線形回帰のための文脈内重み予測タスクを訓練した変圧器の試験時間スケーリング性能について検討した。
多様な、関連性があり、難しいタスクセットでのトレーニングが、テスト時間のスケーリングに最高のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2025-10-04T01:38:48Z) - Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations [62.132347451049455]
スケールは強力な機械学習モデルを得る上で重要な要素となっている。
本研究では,コサインのスケジュールに依存するため,スケールとトレーニングの研究は必然的に複雑である,と論じる。
その結果,重量平均化はトレーニングの軌道に沿って,異なるスケールでのトレーニングコストを伴わずに向上することがわかった。
論文 参考訳(メタデータ) (2024-05-28T17:33:54Z) - Better Schedules for Low Precision Training of Deep Neural Networks [13.88763215392452]
周期的精度訓練(CPT)は、周期的スケジュールに従って、訓練を通しての精度を動的に調整する。
CPTはトレーニング効率が特に向上し、実際にDNNのパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-03-04T17:33:39Z) - Always-Sparse Training by Growing Connections with Guided Stochastic Exploration [43.26615926465987]
本研究では,より大規模かつスペーサーなモデルへのスケーリングに優れる,効率的な常時スパーストレーニングアルゴリズムを提案する。
我々は,VGGモデルとVTモデルを用いて,CIFAR-10/100 と ImageNet の手法を評価し,様々なスペーサー化手法と比較した。
論文 参考訳(メタデータ) (2024-01-12T21:32:04Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。