論文の概要: Is It a Free Lunch for Removing Outliers during Pretraining?
- arxiv url: http://arxiv.org/abs/2402.12102v1
- Date: Mon, 19 Feb 2024 12:45:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 16:53:40.845722
- Title: Is It a Free Lunch for Removing Outliers during Pretraining?
- Title(参考訳): プレトレーニング時のアウトリーチ除去のためのフリーランチか?
- Authors: Baohao Liao, Christof Monz
- Abstract要約: モデル事前学習を目的としたソフトマックス関数を,外乱のない方法で導入する。
このような手法が完全な精度で性能を低下させることを示す。
我々は、その正規化がシーケンス長に不変であることを保証して、その方法を強化する。
- 参考スコア(独自算出の注目度): 7.621880623381026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the growing size of large language models, the role of quantization
becomes increasingly significant. However, outliers present in weights or
activations notably influence the performance of quantized models. Recently,
\citet{qtransformer} introduced a novel softmax function aimed at pretraining
models in an outlier-free manner, thereby enhancing their suitability for
quantization. Interestingly, we observed that such an approach leads to
performance degradation in full precision. Building on this insight, we enhance
the method by ensuring its normalization is invariant to sequence length, a
crucial factor for bridging the gap between pretraining and fine-tuning.
Moreover, this improved method also facilitates successful pretraining of
causal language models.
- Abstract(参考訳): 大きな言語モデルのサイズが大きくなるにつれて、量子化の役割はますます重要になる。
しかし、重みやアクティベーションに存在する外れ値は、特に量子化されたモデルの性能に影響を及ぼす。
近ごろ \citet{qtransformer} は、外乱のない方法でモデルを事前学習することを目的とした新しいソフトマックス関数を導入し、量子化への適合性を高めた。
興味深いことに、そのようなアプローチは完全な精度で性能劣化を引き起こす。
この知見に基づいて,プレトレーニングと微調整のギャップを埋める重要な要素であるシーケンス長に正規化が不変であることを保証し,その方法を強化する。
さらに,この改良手法は因果言語モデルの事前学習を成功させる。
関連論文リスト
- Scaling Laws for Precision [73.24325358259753]
トレーニングと推論の両方に"精度対応"のスケーリング法則を考案する。
推論では,学習後の量子化によって生じる劣化が,モデルがより多くのデータに基づいて訓練されるにつれて増加することが分かる。
トレーニングのために、我々のスケーリング法則は、異なるパーツの異なるモデルの損失を、異なる精度で予測することができる。
論文 参考訳(メタデータ) (2024-11-07T00:10:10Z) - Exploring Quantization for Efficient Pre-Training of Transformer Language Models [11.696132057489786]
本研究の目的は,変圧器の効率的な事前学習における量子化の影響を検討することである。
重み、アクティベーション、勾配、状態に直線量子化を体系的に適用することにより、トレーニング中のモデル効率、安定性、性能への影響を評価する。
論文 参考訳(メタデータ) (2024-07-16T13:42:09Z) - Scalable Ensembling For Mitigating Reward Overoptimisation [24.58937616758007]
ヒューマンフィードバックからの強化学習は、強力な命令追従モデルのための言語モデリングにおける大幅な進歩を可能にした。
ポリシーが学習したプロキシ"報酬モデルに過度に適合する傾向にあるため、これらのモデルの整合性は依然として急進的な課題である。
論文 参考訳(メタデータ) (2024-06-03T05:46:53Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - Mixtures of Experts Unlock Parameter Scaling for Deep RL [54.26191237981469]
本稿では,Mixture-of-Expert(MoE)モジュールを値ベースネットワークに組み込むことで,パラメータスケーラブルなモデルが得られることを示す。
この研究は、強化学習のためのスケーリング法則の開発に関する強力な実証的証拠を提供する。
論文 参考訳(メタデータ) (2024-02-13T17:18:56Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Zero-shot Adversarial Quantization [11.722728148523366]
ゼロショット逆量子化(ZAQ: Zero-shot adversarial quantization)フレームワークを提案し,効果的な不一致推定と知識伝達を容易にする。
これは、情報的で多様なデータ例を合成するためにジェネレータを駆動する、新しい2レベル不一致モデリングによって達成される。
強力なゼロショットベースラインに対してZAQの優位性を示す3つの基本的なビジョンタスクについて広範な実験を行います。
論文 参考訳(メタデータ) (2021-03-29T01:33:34Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。