論文の概要: Fighting Randomness with Randomness: Mitigating Optimisation Instability of Fine-Tuning using Delayed Ensemble and Noisy Interpolation
- arxiv url: http://arxiv.org/abs/2406.12471v2
- Date: Thu, 03 Oct 2024 14:56:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 23:30:27.349620
- Title: Fighting Randomness with Randomness: Mitigating Optimisation Instability of Fine-Tuning using Delayed Ensemble and Noisy Interpolation
- Title(参考訳): ランダム性と戦うランダム性:遅延アンサンブルと雑音補間による微調整の最適化不安定性の軽減
- Authors: Branislav Pecher, Jan Cegin, Robert Belanec, Jakub Simko, Ivan Srba, Maria Bielikova,
- Abstract要約: 雑音補間による遅延アンサンブル(DENI)と呼ばれる新しい緩和戦略を提案する。
DENIと3つのモデル,4つのチューニング戦略,7つのテキスト分類データセットの9つの代表的な緩和戦略を比較した。
DENIは,コストのごく一部を使用しながら,最良性能の緩和戦略(Ensemble)より優れていることを示す。
- 参考スコア(独自算出の注目度): 4.89606179888165
- License:
- Abstract: While fine-tuning of pre-trained language models generally helps to overcome the lack of labelled training samples, it also displays model performance instability. This instability mainly originates from randomness in initialisation or data shuffling. To address this, researchers either modify the training process or augment the available samples, which typically results in increased computational costs. We propose a new mitigation strategy, called Delayed Ensemble with Noisy Interpolation (DENI), that leverages the strengths of ensembling, noise regularisation and model interpolation, while retaining computational efficiency. We compare DENI with 9 representative mitigation strategies across 3 models, 4 tuning strategies and 7 text classification datasets. We show that: 1) DENI outperforms the best performing mitigation strategy (Ensemble), while using only a fraction of its cost; 2) the mitigation strategies are beneficial for parameter-efficient fine-tuning (PEFT) methods, outperforming full fine-tuning in specific cases; and 3) combining DENI with data augmentation often leads to even more effective instability mitigation.
- Abstract(参考訳): 事前訓練された言語モデルの微調整は、一般にラベル付きトレーニングサンプルの欠如を克服するのに役立つが、モデルパフォーマンスの不安定性も示している。
この不安定性は主に初期化やデータのシャッフルにおけるランダム性に起因する。
これを解決するために、研究者はトレーニングプロセスを変更したり、利用可能なサンプルを増やしたりします。
提案手法は遅延アンサンブル (Delayed Ensemble with Noisy Interpolation, DENI) と呼ばれる新しい緩和戦略であり, 計算効率を維持しつつ, アンサンブル, ノイズ正規化, モデル補間といった強みを利用する。
DENIと3つのモデル,4つのチューニング戦略,7つのテキスト分類データセットの9つの代表的な緩和戦略を比較した。
以下に示す。
1)DENIは、コストのごく一部を使用しながら、最高の緩和戦略(アンサンブル)を上回ります。
2) 緩和戦略は, パラメータ効率の良い微調整法(PEFT)に有効であり, 特定の場合において, 完全微調整よりも優れている。
3) DENIとデータ拡張を組み合わせることで、より効果的な不安定性の軽減につながることが多い。
関連論文リスト
- RECOMBINER: Robust and Enhanced Compression with Bayesian Implicit
Neural Representations [8.417694229876371]
COMBINERは量子化を回避し、レート歪み性能の直接最適化を可能にする。
我々は,COMBINERの限界を克服するために,Robust and Enhanced COMBINER (RECOMBINER)を提案する。
我々は,RECOMBINERがINRベースの最良の手法と競合し,低解像度画像上でのオートエンコーダベースのコーデックよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-29T12:27:15Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Interpolation-based Contrastive Learning for Few-Label Semi-Supervised
Learning [43.51182049644767]
半教師付き学習(SSL)は,ラベルが限定された強力なモデルを構築する上で,有効な手法であることが長年証明されてきた。
摂動サンプルを元のものと類似した予測を強制する正規化に基づく手法が注目されている。
本稿では,学習ネットワークの埋め込みを誘導し,サンプル間の線形変化を誘導する新たな対照的な損失を提案する。
論文 参考訳(メタデータ) (2022-02-24T06:00:05Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - A Simple but Tough-to-Beat Data Augmentation Approach for Natural
Language Understanding and Generation [53.8171136907856]
カットオフと呼ばれる、シンプルで効果的なデータ拡張戦略のセットを紹介します。
カットオフはサンプリング一貫性に依存しているため、計算オーバーヘッドが少なくなる。
cutoffは、敵のトレーニングを一貫して上回り、IWSLT2014 German- English データセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-29T07:08:35Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。