論文の概要: The Importance of Being Parameters: An Intra-Distillation Method for
Serious Gains
- arxiv url: http://arxiv.org/abs/2205.11416v1
- Date: Mon, 23 May 2022 16:01:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 17:03:04.994365
- Title: The Importance of Being Parameters: An Intra-Distillation Method for
Serious Gains
- Title(参考訳): パラメータの重要性:深刻な利得のための蒸留内法
- Authors: Haoran Xu, Philipp Koehn, Kenton Murray
- Abstract要約: 我々は、冗長なパラメータをトレーニングして有益な貢献をすることができると論じている。
そこで本研究では,通常のトレーニング損失に付随して,感度のバランスをとるための一般的なタスク非依存的手法,すなわち蒸留法を提案する。
実験の結果,機械翻訳,自然言語理解,ゼロショット言語間移動における手法の有効性が示された。
- 参考スコア(独自算出の注目度): 13.579368172149135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent model pruning methods have demonstrated the ability to remove
redundant parameters without sacrificing model performance. Common methods
remove redundant parameters according to the parameter sensitivity, a
gradient-based measure reflecting the contribution of the parameters. In this
paper, however, we argue that redundant parameters can be trained to make
beneficial contributions. We first highlight the large sensitivity
(contribution) gap among high-sensitivity and low-sensitivity parameters and
show that the model generalization performance can be significantly improved
after balancing the contribution of all parameters. Our goal is to balance the
sensitivity of all parameters and encourage all of them to contribute equally.
We propose a general task-agnostic method, namely intra-distillation, appended
to the regular training loss to balance parameter sensitivity. Moreover, we
also design a novel adaptive learning method to control the strength of
intra-distillation loss for faster convergence. Our experiments show the strong
effectiveness of our methods on machine translation, natural language
understanding, and zero-shot cross-lingual transfer across up to 48 languages,
e.g., a gain of 3.54 BLEU on average across 8 language pairs from the IWSLT'14
translation dataset.
- Abstract(参考訳): 最近のモデルプルーニング手法では、モデル性能を犠牲にすることなく冗長なパラメータを削除することができる。
パラメータの寄与を反映した勾配に基づく尺度であるパラメータ感度に応じて冗長パラメータを除去する。
しかし、本稿では、冗長パラメータをトレーニングして有益な貢献をすることができると論じる。
まず,高感度パラメータと低感度パラメータ間の大きな感度(帰属)ギャップに着目し,すべてのパラメータの寄与のバランスをとれば,モデル一般化性能が著しく向上することを示す。
私たちの目標は、すべてのパラメータの感度のバランスを保ち、それらすべてが平等に貢献することを奨励することにあります。
本稿では, パラメータ感度のバランスをとるために, 通常のトレーニング損失に付加する一般的なタスク非依存手法を提案する。
さらに,より高速な収束のために,蒸留液中損失の強度を制御する適応学習法も設計した。
IWSLT'14翻訳データセットから平均8言語対の平均3.54BLEUを得るなど、最大48言語にわたる機械翻訳、自然言語理解、ゼロショット言語間移動における我々の手法の有効性を示す。
関連論文リスト
- LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。
モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。
提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - Sine Activated Low-Rank Matrices for Parameter Efficient Learning [25.12262017296922]
低ランク分解過程に正弦波関数を統合する新しい理論枠組みを提案する。
我々の手法は、視覚変換器(ViT)、Large Language Models(LLM)、NeRF(Neural Radiance Fields)において、既存の低ランクモデルの強化を証明している。
論文 参考訳(メタデータ) (2024-03-28T08:58:20Z) - Parameter-Efficient Fine-Tuning without Introducing New Latency [7.631596468553607]
隠れ表現の代わりに事前学習パラメータに直接アダプタを適用する新しいアダプタ技術を導入する。
提案手法は,性能と記憶効率の両面で新たな最先端性を実現し,完全微調整のパラメータは0.03%に過ぎなかった。
論文 参考訳(メタデータ) (2023-05-26T08:44:42Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z) - Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。
Sensuous-Aware Fine-Tuning (SPT) スキーム。
SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。
ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文 参考訳(メタデータ) (2023-03-15T12:34:24Z) - Know Where You're Going: Meta-Learning for Parameter-Efficient
Fine-tuning [34.66092282348687]
そこで本研究では,微調整手法の究極的な選択を考慮に入れれば,パラメータ効率の高い微調整性能が向上することを示す。
パラメータ効率の良い微調整のための事前学習モデルを作成し,NERファインチューニングにおける最大1.7ポイントのゲインを得た。
論文 参考訳(メタデータ) (2022-05-25T02:51:57Z) - No Parameters Left Behind: Sensitivity Guided Adaptive Learning Rate for
Training Large Transformer Models [132.90062129639705]
本稿では,全てのパラメータを十分に訓練するための新しいトレーニング戦略を提案する。
感度の低いパラメータは冗長であり、学習率を高めて適合性を改善する。
対照的に、高い感度を持つパラメータを十分に訓練し、学習率を下げて正規化することで、さらなる過度なオーバーフィッティングを防止する。
論文 参考訳(メタデータ) (2022-02-06T00:22:28Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。