Fugu-MT 論文翻訳(概要): Mitigating Outlier Activations in Low-Precision Fine-Tuning of Language Models

論文の概要: Mitigating Outlier Activations in Low-Precision Fine-Tuning of Language Models

arxiv url: http://arxiv.org/abs/2312.09211v3
Date: Sat, 13 Jan 2024 13:52:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 00:12:03.791606
Title: Mitigating Outlier Activations in Low-Precision Fine-Tuning of Language Models
Title（参考訳）: 言語モデルの低精度微調整における外部アクティベーションの緩和
Authors: Alireza Ghaffari, Justin Yu, Mahsa Ghazvini Nejad, Masoud Asgharian, Boxing Chen, Vahid Partovi Nia
Abstract要約: 言語モデルの低精度微調整は、アクティベーションにおける外れ値の存在に影響を受けやすい。本稿では,低精度整数微調整における外乱アクティベーションの軽減手法について検討する。
参考スコア（独自算出の注目度）: 23.233652898606536
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Low-precision fine-tuning of language models has gained prominence as a cost-effective and energy-efficient approach to deploying large-scale models in various applications. However, this approach is susceptible to the existence of outlier values in activation. The outlier values in the activation can negatively affect the performance of fine-tuning language models in the low-precision regime since they affect the scaling factor and thus make representing smaller values harder. This paper investigates techniques for mitigating outlier activation in low-precision integer fine-tuning of the language models. Our proposed novel approach enables us to represent the outlier activation values in 8-bit integers instead of floating-point (FP16) values. The benefit of using integers for outlier values is that it enables us to use operator tiling to avoid performing 16-bit integer matrix multiplication to address this problem effectively. We provide theoretical analysis and supporting experiments to demonstrate the effectiveness of our approach in improving the robustness and performance of low-precision fine-tuned language models.
Abstract（参考訳）: 大規模モデルを様々なアプリケーションに展開するためのコスト効率とエネルギー効率のアプローチとして,低精度な言語モデルの微調整が注目されている。しかし、このアプローチはアクティベーションにおける外れ値の存在に影響を受けやすい。アクティベーションにおける外れ値が、スケーリング係数に影響を及ぼすため、低精度システムにおける微調整言語モデルの性能に悪影響を及ぼし、より小さな値を表現することが難しくなる。本稿では,言語モデルの低精度整数微調整において,外れ値の活性化を緩和する手法について検討する。提案手法により,浮動小数点値 (fp16) の代わりに8ビット整数の外れ値を表すことができる。外れ値に整数を用いる利点は、演算子タイリングを使って16ビット整数行列の乗算を回避し、この問題を効果的に解決できる点である。我々は,低精度の微調整言語モデルの堅牢性と性能を向上させるための手法の有効性を理論的解析および支援実験で実証する。

関連論文リスト

SparseEval: Efficient Evaluation of Large Language Models by Sparse Optimization [64.95852289011385]
大規模言語モデル(LLM)は拡大を続けており、様々な下流タスクのパフォーマンスは大幅に改善されている。多数のベンチマークサンプルで推論を行うと、高い計算コストが発生するため、それらの能力を評価するのがますます高価になっている。 SparseEvalは,アンカーウェイトを最適化する勾配降下法を初めて導入し,アンカーセレクションに反復的洗練戦略を採用する手法である。
論文参考訳（メタデータ） (2026-02-08T11:12:45Z)
Model-Dowser: Data-Free Importance Probing to Mitigate Catastrophic Forgetting in Multimodal Large Language Models [2.83595986479415]
タスク固有データに対する細調整型マルチモーダル言語モデル(MLLM)は、下流アプリケーションの性能向上に有効な方法である。この問題を緩和しようとする既存の手法は、言語デコーダの深い層を微調整した場合や、モデルのサイズが大きくなるにつれて、効果が低下する。本稿では,MLLMの新しい細粒度調整手法であるModel-Dowserを提案する。
論文参考訳（メタデータ） (2026-02-04T12:56:27Z)
Forgetting: A New Mechanism Towards Better Large Language Model Fine-tuning [53.398270878295754]
Supervised Fine-tuning (SFT) は、事前訓練された大規模言語モデル (LLM) において重要な役割を果たす。各コーパス内のトークンを、モデルパフォーマンスを改善するのに有用かどうかに基づいて、正と負の2つの部分に分類することを提案する。我々は、よく確立されたベンチマークで実験を行い、この忘れるメカニズムが全体のモデル性能を向上するだけでなく、より多様なモデル応答を促進することを発見した。
論文参考訳（メタデータ） (2025-08-06T11:22:23Z)
Internal Value Alignment in Large Language Models through Controlled Value Vector Activation [70.41805604556058]
本研究では,Large Language Models (LLM) を人間の値と整合させるためのConVA法を提案する。モデル性能を犠牲にすることなく連続的に値を制御するために,ゲート値ベクトルアクティベーション法を導入する。実験により, LLM性能と流速を損なうことなく, 基本値10個に対して最大制御成功率を達成できることが確認された。
論文参考訳（メタデータ） (2025-07-15T13:48:35Z)
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは違法にコストがかかる LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-04-07T18:30:18Z)
Less is More: Efficient Black-box Attribution via Minimal Interpretable Subset Selection [52.716143424856185]
部分モジュラー部分集合選択の最適化問題として重要領域の帰属を再構成するLiMA(Less input is more faithful for Attribution)を提案する。 LiMAは、エラーを最小限に抑える最適な帰属境界を確保しながら、最も重要かつ最も重要でないサンプルを識別する。また, 帰属効率が1.6倍に向上し, 帰属効率が向上した。
論文参考訳（メタデータ） (2025-04-01T06:58:15Z)
Entropy Adaptive Decoding: Dynamic Model Switching for Efficient Inference [0.0]
本稿では,効率的な言語モデル推論のための新しいアプローチであるEntropy Adaptive Decoding (EAD)を提案する。 EADは予測の不確実性に基づいて、異なるサイズのモデル間で切り替える。異なるモデルファミリー間で顕著な効率向上を示す。
論文参考訳（メタデータ） (2025-02-05T22:15:21Z)
Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文参考訳（メタデータ） (2024-11-05T12:26:25Z)
Activation Scaling for Steering and Interpreting Language Models [55.59689963561315]
モデルにうまく介入することは、内部の動作を解釈するための前提条件である、と我々は主張する。成功した介入は、間違ったトークンで正しいことを正し、その逆を正すべきである。勾配に基づく最適化を用いることで、特定の種類の効率的かつ解釈可能な介入を学習(そして後で評価)することができる。
論文参考訳（メタデータ） (2024-10-07T12:01:32Z)
TernaryLLM: Ternarized Large Language Model [29.29122031050894]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて顕著なパフォーマンスを達成した。本稿では、Dual Learnable Ternarization (DLT)を導入し、スケールとシフトの両方を学習可能にする。また、極低ビット量子化で失われた情報を復元するために、OFF(Outlier-Friendly Feature Knowledge Distillation)を提案する。
論文参考訳（メタデータ） (2024-06-11T11:40:12Z)
Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。 LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文参考訳（メタデータ） (2024-04-18T15:47:00Z)
Effective internal language model training and fusion for factorized transducer model [26.371223360905557]
ニューラルトランスデューサの内部言語モデル(ILM)は広く研究されている。因子化トランスデューサモデルのための新しいILMトレーニングと復号化戦略を提案する。
論文参考訳（メタデータ） (2024-04-02T08:01:05Z)
Dynamic Transformers Provide a False Sense of Efficiency [75.39702559746533]
マルチエグジットモデルは、計算の節約を早期出口から得るため、効率と精度をトレードオフする。本稿では,マルチエグジットモデルの効率を抑えるために特別に最適化された,シンプルで効果的なアタック・フレームワークであるITAを提案する。 GLUEベンチマークの実験により、Pameは様々なマルチエクイットモデルの効率向上を平均80%削減できることが示された。
論文参考訳（メタデータ） (2023-05-20T16:41:48Z)
On the Eigenvalues of Global Covariance Pooling for Fine-grained Visual Recognition [65.67315418971688]
グローバル共分散プーリング(GCP)の小さな固有値をトラッピングすることで、よりスムーズな勾配が得られることを示す。きめ細かいデータセットでは、小さな固有値の切り抜きは、モデルを収束させるのに失敗する。この観測から着想を得て,小さな固有値の重要性を拡大するネットワーク分岐を提案する。
論文参考訳（メタデータ） (2022-05-26T11:41:36Z)
Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文参考訳（メタデータ） (2021-09-09T03:48:35Z)
Cold-start Active Learning through Self-supervised Language Modeling [15.551710499866239]
アクティブラーニングは、ラベルに最も重要な例を選択することで、アノテーションのコストを削減することを目的としている。 BERTでは、マスク付き言語モデリング損失に基づく単純な戦略を開発する。他のベースラインと比較して,本手法はより少ないサンプリングイテレーションと時間で精度が高い。
論文参考訳（メタデータ） (2020-10-19T14:09:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。