論文の概要: Training Dynamics Impact Post-Training Quantization Robustness
- arxiv url: http://arxiv.org/abs/2510.06213v1
- Date: Tue, 07 Oct 2025 17:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.415029
- Title: Training Dynamics Impact Post-Training Quantization Robustness
- Title(参考訳): トレーニング後の量子化ロバストネスに及ぼすトレーニングダイナミクスの影響
- Authors: Albert Catalan-Tatjer, Niccolò Ajroldi, Jonas Geiping,
- Abstract要約: 学習後の量子化は、大規模言語モデルの効率的な展開に広く採用されている。
我々は,最大32Bパラメータと15Tトレーニングトークンを含む,オープンソースの言語モデルトレーニングトラジェクトリ間の量子化劣化の包括的解析を行う。
- 参考スコア(独自算出の注目度): 31.536101256063684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While post-training quantization is widely adopted for efficient deployment of large language models, the mechanisms underlying quantization robustness remain unclear. We conduct a comprehensive analysis of quantization degradation across open-source language model training trajectories up to 32B parameters and 15T training tokens to accurately assess the relationship between training dynamics and quantization performance. Our key finding is that quantization errors in large-scale training runs are driven by a complex interplay between learning rate and other training hyperparameters. Specifically, once learning rates decay, validation loss and quantization error diverge, largely independent of training data scale. To investigate interventions on the training dynamics and identify specific configurations that can modulate quantization robustness favorably, we train our own models in controlled experiments up to 100B tokens. Our results challenge the assumption that increasing dataset scale inherently compromises quantization effectiveness, demonstrating instead that strategic training hyperparameter interventions can improve quantization quality at scale.
- Abstract(参考訳): 学習後の量子化は大規模言語モデルの効率的な展開に広く採用されているが、量子化のロバスト性の基礎となるメカニズムはいまだ不明である。
我々は,学習力学と量子化性能の関係を正確に評価するために,オープンソース言語モデルトレーニングトラジェクトリの32Bパラメータと15Tトレーニングトークン間の量子化劣化の包括的解析を行う。
我々の重要な発見は、大規模トレーニングの実行における量子化エラーは、学習率と他のトレーニングハイパーパラメータとの複雑な相互作用によって引き起こされることである。
特に、学習率の低下、検証損失、量子化エラーは、主にトレーニングデータスケールとは独立している。
トレーニングダイナミクスの介入を調査し、量子化の堅牢性を良好に調整できる特定の構成を特定するために、制御された実験で最大100Bトークンまで、我々のモデルを訓練する。
その結果,データセットのスケールアップが量子化効率を本質的に損なうという仮定に挑戦し,戦略的トレーニングハイパーパラメータ介入が大規模化における量子化品質を向上させることを実証した。
関連論文リスト
- Loss Behavior in Supervised Learning with Entangled States [36.30006416492033]
補助システムとの絡み合いは、教師あり学習などの応用におけるQMLモデルの質を高めることが示されている。
最近の研究は、絡み合ったトレーニングサンプルから抽出できる情報と、訓練されたモデルの近似誤差に与える影響に焦点を当てている。
QMLモデルのトレーニング性に関する結果は、トレーニングプロセス自体が教師付き学習タスクの様々な特性に影響されていることを示している。
論文 参考訳(メタデータ) (2025-09-12T11:09:24Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Supervised learning for robust quantum control in composite-pulse systems [7.474008952791777]
複合パルスシステムにおける堅牢な量子制御を実現するための教師付き学習モデルを開発した。
このモデルは、単一、複数、時間変化のあるエラーを含む、あらゆる種類の体系的エラーに対して大きな抵抗を示す。
この研究は、様々な物理パラメータをトレーニングすることで、フォールトトレラント量子計算のための高効率な学習モデルを提供する。
論文 参考訳(メタデータ) (2023-08-23T01:37:13Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - Zero-shot Adversarial Quantization [11.722728148523366]
ゼロショット逆量子化(ZAQ: Zero-shot adversarial quantization)フレームワークを提案し,効果的な不一致推定と知識伝達を容易にする。
これは、情報的で多様なデータ例を合成するためにジェネレータを駆動する、新しい2レベル不一致モデリングによって達成される。
強力なゼロショットベースラインに対してZAQの優位性を示す3つの基本的なビジョンタスクについて広範な実験を行います。
論文 参考訳(メタデータ) (2021-03-29T01:33:34Z) - Adaptive Quantization of Model Updates for Communication-Efficient
Federated Learning [75.45968495410047]
クライアントノードと中央集約サーバ間のモデル更新の通信は、連合学習において大きなボトルネックとなる。
グラディエント量子化(Gradient Quantization)は、各モデル更新間の通信に必要なビット数を削減する効果的な方法である。
通信効率と低エラーフロアを実現することを目的としたAdaFLと呼ばれる適応量子化戦略を提案する。
論文 参考訳(メタデータ) (2021-02-08T19:14:21Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。