論文の概要: Intrinsic Dimensionality Explains the Effectiveness of Language Model
Fine-Tuning
- arxiv url: http://arxiv.org/abs/2012.13255v1
- Date: Tue, 22 Dec 2020 07:42:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 00:02:56.090337
- Title: Intrinsic Dimensionality Explains the Effectiveness of Language Model
Fine-Tuning
- Title(参考訳): 言語モデルファインチューニングの有効性を説明する内在次元性
- Authors: Armen Aghajanyan, Luke Zettlemoyer, Sonal Gupta
- Abstract要約: 我々は、内在次元のレンズを通して微調整を分析することは、経験的および理論的直観をもたらすと論じる。
実験により、一般的な事前学習モデルは本質的な次元が極めて低いことを示す。
- 参考スコア(独自算出の注目度): 52.624194343095304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although pretrained language models can be fine-tuned to produce
state-of-the-art results for a very wide range of language understanding tasks,
the dynamics of this process are not well understood, especially in the low
data regime. Why can we use relatively vanilla gradient descent algorithms
(e.g., without strong regularization) to tune a model with hundreds of millions
of parameters on datasets with only hundreds or thousands of labeled examples?
In this paper, we argue that analyzing fine-tuning through the lens of
intrinsic dimension provides us with empirical and theoretical intuitions to
explain this remarkable phenomenon. We empirically show that common pre-trained
models have a very low intrinsic dimension; in other words, there exists a low
dimension reparameterization that is as effective for fine-tuning as the full
parameter space. For example, by optimizing only 200 trainable parameters
randomly projected back into the full space, we can tune a RoBERTa model to
achieve 90\% of the full parameter performance levels on MRPC. Furthermore, we
empirically show that pre-training implicitly minimizes intrinsic dimension
and, perhaps surprisingly, larger models tend to have lower intrinsic dimension
after a fixed number of pre-training updates, at least in part explaining their
extreme effectiveness. Lastly, we connect intrinsic dimensionality with low
dimensional task representations and compression based generalization bounds to
provide intrinsic-dimension-based generalization bounds that are independent of
the full parameter count.
- Abstract(参考訳): 事前学習された言語モデルは、非常に幅広い言語理解タスクに対して最先端の結果を生成するように微調整することができるが、このプロセスのダイナミクスは特に低データ構造においてよく理解されていない。
なぜ比較的バニラ勾配勾配アルゴリズム(例えば、強い正規化なしで)を使って、数億から数千というラベル付きサンプルしか持たないデータセット上の数億のパラメータを持つモデルをチューニングできるのか?
本稿では,内在次元のレンズによる微調整を解析することで,この現象を説明するための経験的,理論的直観が得られることを論じる。
実験によって、一般的な事前学習モデルは非常に低い内在次元を持つことが示され、言い換えれば、完全なパラメータ空間のように微調整に有効である低次元のパラメータ化が存在する。
例えば、トレーニング可能なパラメータを200個だけランダムに全空間に投影することで、RoBERTaモデルをチューニングして、MRPCの完全なパラメータパフォーマンスの90%を達成することができます。
さらに,事前学習が内在的な次元を暗黙的に最小化していること,そして,おそらく驚くべきことに,より大きいモデルでは,少なくともその極端な効果を説明するために,一定数の事前学習後の内在的次元が低くなる傾向があることを実証的に示す。
最後に、本質的次元を低次元のタスク表現と圧縮に基づく一般化境界に結びつけ、全パラメータ数に依存しない本質的次元に基づく一般化境界を提供する。
関連論文リスト
- Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - Compressible Dynamics in Deep Overparameterized Low-Rank Learning & Adaptation [12.07880147193174]
モデルパラメータ内のデータと圧縮可能な力学の固有な低次元構造を利用することで、計算負担を伴わずにパラメータ化の利点を享受できることが示される。
提案手法は,低ランク行列と微調整言語モデルに対して有効であることを示す。
論文 参考訳(メタデータ) (2024-06-06T14:29:49Z) - Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - AlphaTuning: Quantization-Aware Parameter-Efficient Adaptation of
Large-Scale Pre-Trained Language Models [19.640997611256168]
我々は,事前学習された言語モデルの学習後の量子化と,対象タスクの量子化パラメータの一部のみを微調整するAlphaTuningを提案する。
具体的には、AlphaTuningはバイナリ符号化量子化を使用して、完全精度パラメータをバイナリパラメータとスケーリングファクタの別個のセットに分解する。
GPT-2 や OPT に適用されたAlphaTuning は,4ビット量子化条件下での圧縮率 >10x を実現し,トレーニング可能なパラメータ数 >1,000x の削減を図りながら,様々な下流タスクの完全な微調整と競合することを示した。
論文 参考訳(メタデータ) (2022-10-08T00:36:00Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z) - Misspecification-robust likelihood-free inference in high dimensions [13.934999364767918]
本稿では,ベイズ最適化に基づく近似離散関数の確率的手法による拡張を提案する。
提案手法は,高次元パラメータ空間に対する計算スケーラビリティを,各パラメータの別個の取得関数と相違点を用いて達成する。
本手法は,100次元空間における標準例による計算効率のよい推論を成功させ,既存のモジュール化ABC法と比較した。
論文 参考訳(メタデータ) (2020-02-21T16:06:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。