Fugu-MT 論文翻訳(概要): Is It a Free Lunch for Removing Outliers during Pretraining?

論文の概要: Is It a Free Lunch for Removing Outliers during Pretraining?

arxiv url: http://arxiv.org/abs/2402.12102v1
Date: Mon, 19 Feb 2024 12:45:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 16:53:40.845722
Title: Is It a Free Lunch for Removing Outliers during Pretraining?
Title（参考訳）: プレトレーニング時のアウトリーチ除去のためのフリーランチか?
Authors: Baohao Liao, Christof Monz
Abstract要約: モデル事前学習を目的としたソフトマックス関数を,外乱のない方法で導入する。このような手法が完全な精度で性能を低下させることを示す。我々は、その正規化がシーケンス長に不変であることを保証して、その方法を強化する。
参考スコア（独自算出の注目度）: 7.621880623381026
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the growing size of large language models, the role of quantization becomes increasingly significant. However, outliers present in weights or activations notably influence the performance of quantized models. Recently, \citet{qtransformer} introduced a novel softmax function aimed at pretraining models in an outlier-free manner, thereby enhancing their suitability for quantization. Interestingly, we observed that such an approach leads to performance degradation in full precision. Building on this insight, we enhance the method by ensuring its normalization is invariant to sequence length, a crucial factor for bridging the gap between pretraining and fine-tuning. Moreover, this improved method also facilitates successful pretraining of causal language models.
Abstract（参考訳）: 大きな言語モデルのサイズが大きくなるにつれて、量子化の役割はますます重要になる。しかし、重みやアクティベーションに存在する外れ値は、特に量子化されたモデルの性能に影響を及ぼす。近ごろ \citet{qtransformer} は、外乱のない方法でモデルを事前学習することを目的とした新しいソフトマックス関数を導入し、量子化への適合性を高めた。興味深いことに、そのようなアプローチは完全な精度で性能劣化を引き起こす。この知見に基づいて,プレトレーニングと微調整のギャップを埋める重要な要素であるシーケンス長に正規化が不変であることを保証し,その方法を強化する。さらに,この改良手法は因果言語モデルの事前学習を成功させる。

関連論文リスト

Enhancing Ultra-Low-Bit Quantization of Large Language Models Through Saliency-Aware Partial Retraining [0.0]
トレーニング後の量子化は、精度の低下を犠牲にして、モデルサイズを効率的に削減する。量子化学習(quantization-aware training)は、精度を向上するが、リソース集約である。本稿では,ApiQ上に構築した超低ビット量子化手法を提案する。
論文参考訳（メタデータ） (2025-04-14T19:31:21Z)
Softplus Attention with Re-weighting Boosts Length Extrapolation in Large Language Models [7.80071686970278]
従来のSoftmaxの注意は、推論トークンの長さが増加するにつれて、数値的な不安定さと性能の低下に悩まされる。本稿では,Softmax演算を非線形変換と$l_1$-normに分解することで,これらの問題に対処する。我々は,従来のSoftmaxのアテンションよりも優れた性能を持つ新しいアテンション機構を,様々な推論長さにわたって構築する。
論文参考訳（メタデータ） (2025-01-23T07:21:08Z)
Dissecting Bit-Level Scaling Laws in Quantizing Vision Generative Models [13.937690707239177]
言語型モデルは様々な量子化設定において拡散型モデルより一貫して優れていることを示す。この観察は、言語スタイルのモデルは、ビットレベルのスケーリング法則が優れていることを示唆し、モデルの品質とトータルビットとのトレードオフをより良くする。蒸留プロセスにおける「暗黙的知識」と「明示的知識」のバランスをとることにより、蒸留知識の伝達を最適化するTopKLDを提案する。
論文参考訳（メタデータ） (2025-01-06T14:23:07Z)
Scaling Laws for Precision [73.24325358259753]
トレーニングと推論の両方に"精度対応"のスケーリング法則を考案する。推論では,学習後の量子化によって生じる劣化が,モデルがより多くのデータに基づいて訓練されるにつれて増加することが分かる。トレーニングのために、我々のスケーリング法則は、異なるパーツの異なるモデルの損失を、異なる精度で予測することができる。
論文参考訳（メタデータ） (2024-11-07T00:10:10Z)
Exploring Quantization for Efficient Pre-Training of Transformer Language Models [11.696132057489786]
本研究の目的は,変圧器の効率的な事前学習における量子化の影響を検討することである。重み、アクティベーション、勾配、状態に直線量子化を体系的に適用することにより、トレーニング中のモデル効率、安定性、性能への影響を評価する。
論文参考訳（メタデータ） (2024-07-16T13:42:09Z)
Scalable Ensembling For Mitigating Reward Overoptimisation [24.58937616758007]
ヒューマンフィードバックからの強化学習は、強力な命令追従モデルのための言語モデリングにおける大幅な進歩を可能にした。ポリシーが学習したプロキシ"報酬モデルに過度に適合する傾向にあるため、これらのモデルの整合性は依然として急進的な課題である。
論文参考訳（メタデータ） (2024-06-03T05:46:53Z)
Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文参考訳（メタデータ） (2024-05-17T17:49:44Z)
Mixtures of Experts Unlock Parameter Scaling for Deep RL [54.26191237981469]
本稿では,Mixture-of-Expert(MoE)モジュールを値ベースネットワークに組み込むことで,パラメータスケーラブルなモデルが得られることを示す。この研究は、強化学習のためのスケーリング法則の開発に関する強力な実証的証拠を提供する。
論文参考訳（メタデータ） (2024-02-13T17:18:56Z)
An Emulator for Fine-Tuning Large Language Models using Small Language Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。 EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文参考訳（メタデータ） (2023-10-19T17:57:16Z)
Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。異なるサイズの言語モデルは事前学習中にどのように学習するか? より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文参考訳（メタデータ） (2022-12-19T19:16:29Z)
Zero-shot Adversarial Quantization [11.722728148523366]
ゼロショット逆量子化(ZAQ: Zero-shot adversarial quantization)フレームワークを提案し,効果的な不一致推定と知識伝達を容易にする。これは、情報的で多様なデータ例を合成するためにジェネレータを駆動する、新しい2レベル不一致モデリングによって達成される。強力なゼロショットベースラインに対してZAQの優位性を示す3つの基本的なビジョンタスクについて広範な実験を行います。
論文参考訳（メタデータ） (2021-03-29T01:33:34Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。