論文の概要: GEM: A Scale-Aware and Distribution-Sensitive Sparse Fine-Tuning Framework for Effective Downstream Adaptation
- arxiv url: http://arxiv.org/abs/2508.16191v1
- Date: Fri, 22 Aug 2025 08:12:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.307033
- Title: GEM: A Scale-Aware and Distribution-Sensitive Sparse Fine-Tuning Framework for Effective Downstream Adaptation
- Title(参考訳): GEM:効果的な下流適応のためのスケールアウェアと分散感応性スパースファインチューニングフレームワーク
- Authors: Sungmin Kang, Jisoo Kim, Salman Avestimehr, Sunwoo Lee,
- Abstract要約: 勾配重量比とエントロピー誘導マスキング(GEM)
GEMは、初期トレーニング済みの値に比例して更新が重要であるパラメータを優先順位付けする。
また、パラメータ値のエントロピーに基づいて各層でチューニングすべきパラメータ数を適応的に決定する。
- 参考スコア(独自算出の注目度): 21.481261295689208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter-efficient fine-tuning (PEFT) has become a popular way to adapt large pre-trained models to new tasks. Most PEFT methods update only a small subset of parameters while freezing the rest, avoiding redundant computation. As they maximize the absolute size of the updates without regard to the parameters' original scale, the resulting changes in model behavior can be minimal. In contrast, we maximize updates relative to each parameter's scale, yielding more meaningful downstream adaptation. We propose Gradient-to-Weight Ratio and Entropy-guided Masking (GEM), a parameter scale-aware, distribution-sensitive sparse fine-tuning framework. GEM prioritizes parameters whose updates are significant in proportion to their initial pre-trained values. It also adaptively determines how many parameters to tune at each layer based on the entropy of parameter values, thereby making the most effective use of the computational budget in PEFT. Our empirical study demonstrates the efficacy of GEM on both general-domain tasks (GLUE and SuperGLUE) and domain-specific tasks (GSM8k and MBPP), achieving up to a 1.6% improvement in fine-tuning accuracy over full fine-tuning while updating only 0.1% of model parameters.
- Abstract(参考訳): パラメータ効率のよい微調整(PEFT)は、大規模な事前訓練されたモデルを新しいタスクに適応させる一般的な方法となっている。
ほとんどのPEFTメソッドは、残りを凍結しながらパラメータの小さなサブセットだけを更新し、冗長な計算を避ける。
パラメータの元々のスケールによらず、更新の絶対サイズを最大化するので、結果として生じるモデルの振る舞いの変化は最小限にすることができる。
対照的に、各パラメータのスケールに対する更新を最大化し、より意味のある下流適応をもたらす。
本稿では,パラメータスケール対応で分布に敏感なスパース微調整フレームワークGEM(Gradient-to-Weight Ratio and Entropy-Guided Masking)を提案する。
GEMは、初期トレーニング済みの値に比例して更新が重要であるパラメータを優先順位付けする。
また、パラメータ値のエントロピーに基づいて各層でチューニングすべきパラメータ数を適応的に決定し、PEFTの計算予算を最も効果的に活用する。
実験により,汎用ドメインタスク(GLUEとSuperGLUE)およびドメイン固有タスク(GSM8kとMBPP)に対するGEMの有効性を実証し,モデルパラメータの0.1%を更新しながら,最大1.6%の微調整精度の向上を実現した。
関連論文リスト
- Gradient-based Fine-Tuning through Pre-trained Model Regularization [20.823624386591902]
重み行列の行や列を更新する効率的な勾配ベースおよび正規化微調整法(GRFT)を提案する。
GRFTは最先端のパフォーマンスを実現し、GPS、Adapter Tuning、LoRAといった既存の手法を超越している。
論文 参考訳(メタデータ) (2025-06-14T14:41:03Z) - Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - Parameter-Efficient Fine-Tuning without Introducing New Latency [7.631596468553607]
隠れ表現の代わりに事前学習パラメータに直接アダプタを適用する新しいアダプタ技術を導入する。
提案手法は,性能と記憶効率の両面で新たな最先端性を実現し,完全微調整のパラメータは0.03%に過ぎなかった。
論文 参考訳(メタデータ) (2023-05-26T08:44:42Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z) - Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。
Sensuous-Aware Fine-Tuning (SPT) スキーム。
SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。
ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文 参考訳(メタデータ) (2023-03-15T12:34:24Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。