論文の概要: Mitigating Outlier Activations in Low-Precision Fine-Tuning of Language
Models
- arxiv url: http://arxiv.org/abs/2312.09211v3
- Date: Sat, 13 Jan 2024 13:52:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 00:12:03.791606
- Title: Mitigating Outlier Activations in Low-Precision Fine-Tuning of Language
Models
- Title(参考訳): 言語モデルの低精度微調整における外部アクティベーションの緩和
- Authors: Alireza Ghaffari, Justin Yu, Mahsa Ghazvini Nejad, Masoud Asgharian,
Boxing Chen, Vahid Partovi Nia
- Abstract要約: 言語モデルの低精度微調整は、アクティベーションにおける外れ値の存在に影響を受けやすい。
本稿では,低精度整数微調整における外乱アクティベーションの軽減手法について検討する。
- 参考スコア(独自算出の注目度): 23.233652898606536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-precision fine-tuning of language models has gained prominence as a
cost-effective and energy-efficient approach to deploying large-scale models in
various applications. However, this approach is susceptible to the existence of
outlier values in activation. The outlier values in the activation can
negatively affect the performance of fine-tuning language models in the
low-precision regime since they affect the scaling factor and thus make
representing smaller values harder. This paper investigates techniques for
mitigating outlier activation in low-precision integer fine-tuning of the
language models. Our proposed novel approach enables us to represent the
outlier activation values in 8-bit integers instead of floating-point (FP16)
values. The benefit of using integers for outlier values is that it enables us
to use operator tiling to avoid performing 16-bit integer matrix multiplication
to address this problem effectively. We provide theoretical analysis and
supporting experiments to demonstrate the effectiveness of our approach in
improving the robustness and performance of low-precision fine-tuned language
models.
- Abstract(参考訳): 大規模モデルを様々なアプリケーションに展開するためのコスト効率とエネルギー効率のアプローチとして,低精度な言語モデルの微調整が注目されている。
しかし、このアプローチはアクティベーションにおける外れ値の存在に影響を受けやすい。
アクティベーションにおける外れ値が、スケーリング係数に影響を及ぼすため、低精度システムにおける微調整言語モデルの性能に悪影響を及ぼし、より小さな値を表現することが難しくなる。
本稿では,言語モデルの低精度整数微調整において,外れ値の活性化を緩和する手法について検討する。
提案手法により,浮動小数点値 (fp16) の代わりに8ビット整数の外れ値を表すことができる。
外れ値に整数を用いる利点は、演算子タイリングを使って16ビット整数行列の乗算を回避し、この問題を効果的に解決できる点である。
我々は,低精度の微調整言語モデルの堅牢性と性能を向上させるための手法の有効性を理論的解析および支援実験で実証する。
関連論文リスト
- Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - Effective internal language model training and fusion for factorized transducer model [26.371223360905557]
ニューラルトランスデューサの内部言語モデル(ILM)は広く研究されている。
因子化トランスデューサモデルのための新しいILMトレーニングと復号化戦略を提案する。
論文 参考訳(メタデータ) (2024-04-02T08:01:05Z) - Enhancing Efficiency in Sparse Models with Sparser Selection [30.687511115573038]
ツールは、スパースMoEモデルの有効性と効率を高めるために設計された新しいMoEである。
パフォーマンスを犠牲にすることなく、MoE層の計算負荷を50%以上削減しながら、モデルパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-02-27T08:18:02Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - Dynamic Transformers Provide a False Sense of Efficiency [75.39702559746533]
マルチエグジットモデルは、計算の節約を早期出口から得るため、効率と精度をトレードオフする。
本稿では,マルチエグジットモデルの効率を抑えるために特別に最適化された,シンプルで効果的なアタック・フレームワークであるITAを提案する。
GLUEベンチマークの実験により、Pameは様々なマルチエクイットモデルの効率向上を平均80%削減できることが示された。
論文 参考訳(メタデータ) (2023-05-20T16:41:48Z) - A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained
Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。
我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文 参考訳(メタデータ) (2022-10-13T15:47:09Z) - Outlier Suppression: Pushing the Limit of Low-bit Transformer Language
Models [57.933500846742234]
最近の研究は、構造化された外れ値が量子化性能の重要なボトルネックであることを認識している。
本稿では,Gamma Migration と Token-Wise Clipping の2つのコンポーネントを含む外部抑制フレームワークを提案する。
このフレームワークは、アウトレイラを効果的に抑制し、プラグアンドプレイモードで使用することができる。
論文 参考訳(メタデータ) (2022-09-27T12:05:59Z) - On the Eigenvalues of Global Covariance Pooling for Fine-grained Visual
Recognition [65.67315418971688]
グローバル共分散プーリング(GCP)の小さな固有値をトラッピングすることで、よりスムーズな勾配が得られることを示す。
きめ細かいデータセットでは、小さな固有値の切り抜きは、モデルを収束させるのに失敗する。
この観測から着想を得て,小さな固有値の重要性を拡大するネットワーク分岐を提案する。
論文 参考訳(メタデータ) (2022-05-26T11:41:36Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Cold-start Active Learning through Self-supervised Language Modeling [15.551710499866239]
アクティブラーニングは、ラベルに最も重要な例を選択することで、アノテーションのコストを削減することを目的としている。
BERTでは、マスク付き言語モデリング損失に基づく単純な戦略を開発する。
他のベースラインと比較して,本手法はより少ないサンプリングイテレーションと時間で精度が高い。
論文 参考訳(メタデータ) (2020-10-19T14:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。