論文の概要: KL Regularized Normalization Framework for Low Resource Tasks
- arxiv url: http://arxiv.org/abs/2212.11275v1
- Date: Wed, 21 Dec 2022 05:59:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 13:42:34.239256
- Title: KL Regularized Normalization Framework for Low Resource Tasks
- Title(参考訳): 低リソースタスクのためのKL正規化正規化フレームワーク
- Authors: Neeraj Kumar, Ankur Narang and Brejesh Lall
- Abstract要約: 資源や時間が限られているため、大量の教師付きデータを得ることは困難である。
正規化データを適切に振舞い、より一般化するのに役立つKullbackLeibler(KL)正規化正規化(KL-Norm)を提案する。
- 参考スコア(独自算出の注目度): 18.88247001843119
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large pre-trained models, such as Bert, GPT, and Wav2Vec, have demonstrated
great potential for learning representations that are transferable to a wide
variety of downstream tasks . It is difficult to obtain a large quantity of
supervised data due to the limited availability of resources and time. In light
of this, a significant amount of research has been conducted in the area of
adopting large pre-trained datasets for diverse downstream tasks via fine
tuning, linear probing, or prompt tuning in low resource settings.
Normalization techniques are essential for accelerating training and improving
the generalization of deep neural networks and have been successfully used in a
wide variety of applications. A lot of normalization techniques have been
proposed but the success of normalization in low resource downstream NLP and
speech tasks is limited. One of the reasons is the inability to capture
expressiveness by rescaling parameters of normalization. We propose
KullbackLeibler(KL) Regularized normalization (KL-Norm) which make the
normalized data well behaved and helps in better generalization as it reduces
over-fitting, generalises well on out of domain distributions and removes
irrelevant biases and features with negligible increase in model parameters and
memory overheads. Detailed experimental evaluation on multiple low resource NLP
and speech tasks, demonstrates the superior performance of KL-Norm as compared
to other popular normalization and regularization techniques.
- Abstract(参考訳): Bert、GPT、Wav2Vecのような大規模な事前学習モデルでは、さまざまな下流タスクに転送可能な学習表現が大きな可能性を示している。
資源や時間が限られているため、大量の教師付きデータを得ることは困難である。
これを踏まえて、微調整、線形探索、あるいは低リソース設定での迅速なチューニングを通じて、下流タスクに大規模な事前学習済みデータセットを採用する分野において、かなりの量の研究が行われている。
正規化技術は、深層ニューラルネットワークの一般化を加速し、改善するために不可欠であり、様々な応用に成功している。
多くの正規化技術が提案されているが、低リソース下流NLPおよび音声タスクにおける正規化の成功は限られている。
理由の1つは、正規化のパラメータを再スケーリングすることで表現性を捉えることができないことである。
そこで,kllbackleibler(kl)正規化正規化 (kl-norm) を提案する。これは正規化データをうまく動作させ,オーバーフィッティングを低減し,領域外分布をうまく一般化し,モデルパラメータやメモリオーバーヘッドが無視できるような,無関係なバイアスや特徴を取り除く。
複数の低リソースNLPおよび音声タスクに関する詳細な実験評価を行い、KL-Normの他の一般的な正規化および正規化技術と比較して優れた性能を示す。
関連論文リスト
- Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。
一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文 参考訳(メタデータ) (2024-11-17T01:16:37Z) - QT-DoG: Quantization-aware Training for Domain Generalization [58.439816306817306]
領域一般化のための量子化アウェアトレーニング(QT-DoG)を提案する。
QT-DoGは、モデル重みのノイズを誘導することで暗黙の正則化器として量子化を利用する。
我々は、QT-DoGが様々なデータセット、アーキテクチャ、量子化アルゴリズムにまたがって一般化することを実証する。
論文 参考訳(メタデータ) (2024-10-08T13:21:48Z) - Learn to Preserve and Diversify: Parameter-Efficient Group with Orthogonal Regularization for Domain Generalization [28.977757627384165]
ドメイン・ドメイン(DG)は、限られたトレーニングデータと見つからないテストデータの間の分散シフトが発生したとき、モデルの性能劣化を避けることを目的としている。
近年、膨大なパラメータを持つ基礎モデルは、膨大なデータセットで事前訓練されており、強力な一般化能力を示している。
我々のフレームワークは5つのDGベンチマークでSOTA性能を実現し、テストコストを増すことなく少数のパラメータをトレーニングするのみである。
論文 参考訳(メタデータ) (2024-07-21T07:50:49Z) - Quantized Prompt for Efficient Generalization of Vision-Language Models [27.98205540768322]
CLIPのような大規模事前学習型視覚言語モデルは、様々な分野で大きな成功を収めている。
下流への適応の間、最も難しい問題は過度に適合し、破滅的な忘れ物である。
本稿では,視覚言語モデルを正規化するための量子化について検討する。
論文 参考訳(メタデータ) (2024-07-15T13:19:56Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - DR-Tune: Improving Fine-tuning of Pretrained Visual Models by
Distribution Regularization with Semantic Calibration [38.4461170690033]
セマンティックキャリブレーションを用いた分布正規化(DR-Tune)という,新しい微調整フレームワークを提案する。
DR-Tuneは、下流タスクヘッドを強制して、事前訓練された特徴分布の分類誤差を低減することで、分散正則化を採用する。
セマンティックドリフトによる干渉を軽減するため,セマンティックキャリブレーション(SC)モジュールを開発した。
論文 参考訳(メタデータ) (2023-08-23T10:59:20Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Variational Information Bottleneck for Effective Low-Resource
Fine-Tuning [40.66716433803935]
低リソースターゲットタスクの微調整において,無関係な特徴を抑えるために,変動情報ボット (VIB) を提案する。
我々のVIBモデルは、自然言語推論データセットのバイアスに対してより堅牢な文表現を見つける。
論文 参考訳(メタデータ) (2021-06-10T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。