論文の概要: KL Regularized Normalization Framework for Low Resource Tasks
- arxiv url: http://arxiv.org/abs/2212.11275v1
- Date: Wed, 21 Dec 2022 05:59:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 13:42:34.239256
- Title: KL Regularized Normalization Framework for Low Resource Tasks
- Title(参考訳): 低リソースタスクのためのKL正規化正規化フレームワーク
- Authors: Neeraj Kumar, Ankur Narang and Brejesh Lall
- Abstract要約: 資源や時間が限られているため、大量の教師付きデータを得ることは困難である。
正規化データを適切に振舞い、より一般化するのに役立つKullbackLeibler(KL)正規化正規化(KL-Norm)を提案する。
- 参考スコア(独自算出の注目度): 18.88247001843119
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large pre-trained models, such as Bert, GPT, and Wav2Vec, have demonstrated
great potential for learning representations that are transferable to a wide
variety of downstream tasks . It is difficult to obtain a large quantity of
supervised data due to the limited availability of resources and time. In light
of this, a significant amount of research has been conducted in the area of
adopting large pre-trained datasets for diverse downstream tasks via fine
tuning, linear probing, or prompt tuning in low resource settings.
Normalization techniques are essential for accelerating training and improving
the generalization of deep neural networks and have been successfully used in a
wide variety of applications. A lot of normalization techniques have been
proposed but the success of normalization in low resource downstream NLP and
speech tasks is limited. One of the reasons is the inability to capture
expressiveness by rescaling parameters of normalization. We propose
KullbackLeibler(KL) Regularized normalization (KL-Norm) which make the
normalized data well behaved and helps in better generalization as it reduces
over-fitting, generalises well on out of domain distributions and removes
irrelevant biases and features with negligible increase in model parameters and
memory overheads. Detailed experimental evaluation on multiple low resource NLP
and speech tasks, demonstrates the superior performance of KL-Norm as compared
to other popular normalization and regularization techniques.
- Abstract(参考訳): Bert、GPT、Wav2Vecのような大規模な事前学習モデルでは、さまざまな下流タスクに転送可能な学習表現が大きな可能性を示している。
資源や時間が限られているため、大量の教師付きデータを得ることは困難である。
これを踏まえて、微調整、線形探索、あるいは低リソース設定での迅速なチューニングを通じて、下流タスクに大規模な事前学習済みデータセットを採用する分野において、かなりの量の研究が行われている。
正規化技術は、深層ニューラルネットワークの一般化を加速し、改善するために不可欠であり、様々な応用に成功している。
多くの正規化技術が提案されているが、低リソース下流NLPおよび音声タスクにおける正規化の成功は限られている。
理由の1つは、正規化のパラメータを再スケーリングすることで表現性を捉えることができないことである。
そこで,kllbackleibler(kl)正規化正規化 (kl-norm) を提案する。これは正規化データをうまく動作させ,オーバーフィッティングを低減し,領域外分布をうまく一般化し,モデルパラメータやメモリオーバーヘッドが無視できるような,無関係なバイアスや特徴を取り除く。
複数の低リソースNLPおよび音声タスクに関する詳細な実験評価を行い、KL-Normの他の一般的な正規化および正規化技術と比較して優れた性能を示す。
関連論文リスト
- LEVI: Generalizable Fine-tuning via Layer-wise Ensemble of Different
Views [28.917597757230745]
ファインチューニングは、新しい下流タスクで事前訓練された基礎モデルのパワーを活用するために使用される。
近年の研究では、微調整されたモデルから目に見えない分布への一般化の課題が観察されている。
そこで本研究では,タスク固有モデルを用いて,事前学習したモデルを階層的に適応的に組み立てる,一般化可能なファインチューニング手法LEVIを提案する。
論文 参考訳(メタデータ) (2024-02-07T08:16:40Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Model [105.63770797908127]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Re-parameterized Low-rank Prompt: Generalize a Vision-Language Model
within 0.5K Parameters [75.28536311904489]
そこで我々は,RLP(Re- parameterized Low-rank Prompt)という新しいタイプのプロンプトを開発した。
11データセットを超える一連のタスクにおいて、RLPは0.5Kパラメータだけで古典的なプロンプトチューニングの平均下流精度を最大5.25%向上させる。
論文 参考訳(メタデータ) (2023-12-17T20:42:43Z) - DR-Tune: Improving Fine-tuning of Pretrained Visual Models by
Distribution Regularization with Semantic Calibration [38.4461170690033]
セマンティックキャリブレーションを用いた分布正規化(DR-Tune)という,新しい微調整フレームワークを提案する。
DR-Tuneは、下流タスクヘッドを強制して、事前訓練された特徴分布の分類誤差を低減することで、分散正則化を採用する。
セマンティックドリフトによる干渉を軽減するため,セマンティックキャリブレーション(SC)モジュールを開発した。
論文 参考訳(メタデータ) (2023-08-23T10:59:20Z) - Context Normalization Layer with Applications [0.1499944454332829]
本研究では,画像データに対する文脈正規化と呼ばれる新しい正規化手法を提案する。
各サンプルの特性に基づいて特徴のスケーリングを調整し、モデルの収束速度と性能を改善する。
文脈正規化の有効性は様々なデータセットで示され、その性能は他の標準正規化手法と比較される。
論文 参考訳(メタデータ) (2023-03-14T06:38:17Z) - Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。
機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。
提案手法は,画像分類における既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-02T07:31:39Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Variational Information Bottleneck for Effective Low-Resource
Fine-Tuning [40.66716433803935]
低リソースターゲットタスクの微調整において,無関係な特徴を抑えるために,変動情報ボット (VIB) を提案する。
我々のVIBモデルは、自然言語推論データセットのバイアスに対してより堅牢な文表現を見つける。
論文 参考訳(メタデータ) (2021-06-10T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。