論文の概要: Defeating the Training-Inference Mismatch via FP16
- arxiv url: http://arxiv.org/abs/2510.26788v1
- Date: Thu, 30 Oct 2025 17:58:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.968853
- Title: Defeating the Training-Inference Mismatch via FP16
- Title(参考訳): FP16によるトレーニング推論ミスマッチの定義
- Authors: Penghui Qi, Zichen Liu, Xiangxin Zhou, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin,
- Abstract要約: 強化学習(Reinforcement Learning, RL)の微調整は、トレーニングと推論ポリシーのミスマッチが原因で不安定な場合が多い。
その根本原因は浮動小数点精度そのものにあることを示す。
広く採用されているBF16は、大きなダイナミックレンジにもかかわらず、トレーニングと推論の一貫性を損なう大きな丸め誤差を導入している。
- 参考スコア(独自算出の注目度): 72.25890308541334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) fine-tuning of large language models (LLMs) often suffers from instability due to the numerical mismatch between the training and inference policies. While prior work has attempted to mitigate this issue through algorithmic corrections or engineering alignments, we show that its root cause lies in the floating point precision itself. The widely adopted BF16, despite its large dynamic range, introduces large rounding errors that breaks the consistency between training and inference. In this work, we demonstrate that simply reverting to \textbf{FP16} effectively eliminates this mismatch. The change is simple, fully supported by modern frameworks with only a few lines of code change, and requires no modification to the model architecture or learning algorithm. Our results suggest that using FP16 uniformly yields more stable optimization, faster convergence, and stronger performance across diverse tasks, algorithms and frameworks. We hope these findings motivate a broader reconsideration of precision trade-offs in RL fine-tuning.
- Abstract(参考訳): 強化学習(RL)による大規模言語モデル(LLM)の微調整は、トレーニングと推論ポリシーの数値ミスマッチにより不安定な場合が多い。
従来の研究はアルゴリズムの修正や工学的なアライメントによってこの問題を緩和しようとしたが、その根本原因は浮動小数点精度そのものにある。
広く採用されているBF16は、大きなダイナミックレンジにもかかわらず、トレーニングと推論の一貫性を損なう大きな丸め誤差を導入している。
本研究では,単に \textbf{FP16} に戻すだけで,このミスマッチを効果的に排除できることを示す。
この変更は単純で、数行のコード変更しか行わず、モダンなフレームワークで完全にサポートされており、モデルアーキテクチャや学習アルゴリズムを変更する必要はない。
この結果から,FP16の使用により,より安定した最適化,より高速な収束,多種多様なタスク,アルゴリズム,フレームワークのパフォーマンス向上が期待できる。
これらの発見が、RL微調整における精度トレードオフのより広範な再考を動機とすることを願っている。
関連論文リスト
- INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats [51.72056104795248]
NvidiaのBlackwellアーキテクチャのような現代のAIハードウェアは、低精度浮動小数点(FP)フォーマットをますます受け入れている。
本稿では,FPフォーマットと整数(INT)フォーマットのトレードオフを系統的に検討する。
FPは粗粒度量子化に優れるが、きめ細かい(ブロックワイド)レベルでの比較はよりニュアンスが高い。
論文 参考訳(メタデータ) (2025-10-29T15:11:53Z) - Speeding Up MACE: Low-Precision Tricks for Equivarient Force Fields [51.95157731126864]
機械学習力場は高い計算コストで正確な分子動力学(MD)を提供することができる。
この論文は、計算ボトルネックを特定し、低精度の実行ポリシーを評価することで、MACEを安価かつ高速にすることを目的としている。
論文 参考訳(メタデータ) (2025-10-23T14:02:34Z) - Asymmetric VAE for One-Step Video Super-Resolution Acceleration [63.419142632861345]
本稿では,高圧縮VAEを実装することにより,計算コストを大幅に削減するFastVSRを提案する。
FastVSRは、マルチステップモデルに比べて111.9倍、既存のワンステップモデルより3.92倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-09-29T00:36:14Z) - To FP8 and Back Again: Quantifying Reduced Precision Effects on LLM Training Stability [7.115739465137031]
BrainFloat16 (BF16) の精度は、大規模な言語モデルの事前トレーニングのデファクトスタンダードになっている。
しかしながら、BF16より安定でないことが判明したFP16の以前の経験は、FP8がLCM訓練の費用対効果があるかどうかという懸念を提起している。
自己回帰言語モデルにおける損失ランドスケープのシャープネスを定量化するための新しい評価手法と新しい指標を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:42:23Z) - Counterbalancing Teacher: Regularizing Batch Normalized Models for
Robustness [15.395021925719817]
バッチ正規化(BN)は、より精度の高い収束を加速するディープニューラルネットワークのトレーニング技術である。
BNは、トレーニング(ドメイン内)データに非常に依存する低分散機能に依存してモデルにインセンティブを与えることを示す。
本稿では,学生ネットワークの頑健な表現の学習を強制するために,反バランス教師(CT)を提案する。
論文 参考訳(メタデータ) (2022-07-04T16:16:24Z) - Fast Adversarial Training with Adaptive Step Size [62.37203478589929]
トレーニングインスタンスの観点から,この現象を考察する。
適応ステップサイズ(ATAS)を用いた逆学習法を提案する。
ATASは、その勾配ノルムに逆比例するインスタンス順応的なステップサイズを学習する。
論文 参考訳(メタデータ) (2022-06-06T08:20:07Z) - Revisiting BFloat16 Training [30.99618783594963]
最先端の汎用的低精度トレーニングアルゴリズムでは、16ビットと32ビットの精度が混在している。
ディープラーニングアクセラレータは、16ビットと32ビットの浮動小数点ユニットの両方をサポートせざるを得ない。
論文 参考訳(メタデータ) (2020-10-13T05:38:07Z) - To be Robust or to be Fair: Towards Fairness in Adversarial Training [83.42241071662897]
逆行訓練アルゴリズムは、異なるデータ群間の精度と堅牢性に深刻な違いをもたらす傾向がある。
本稿では、敵防衛を行う際の不公平問題を軽減するためのFair-Robust-Learning(FRL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-13T02:21:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。