論文の概要: Better Fine-Tuning by Reducing Representational Collapse
- arxiv url: http://arxiv.org/abs/2008.03156v1
- Date: Thu, 6 Aug 2020 02:13:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 06:28:41.145599
- Title: Better Fine-Tuning by Reducing Representational Collapse
- Title(参考訳): Representational Collapse の低減によるファインチューニングの改善
- Authors: Armen Aghajanyan, Akshat Shrivastava, Anchit Gupta, Naman Goyal, Luke
Zettlemoyer, Sonal Gupta
- Abstract要約: 既存の訓練済み言語モデルに対するアプローチは不安定であることが示されている。
本稿では,従来使用されていた対数目的をパラメトリックノイズに置き換える信頼領域理論に根ざした手法を提案する。
事前学習されたモデルは、微調整されるたびにより一般化可能な表現を維持している。
- 参考スコア(独自算出の注目度): 77.44854918334232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although widely adopted, existing approaches for fine-tuning pre-trained
language models have been shown to be unstable across hyper-parameter settings,
motivating recent work on trust region methods. In this paper, we present a
simplified and efficient method rooted in trust region theory that replaces
previously used adversarial objectives with parametric noise (sampling from
either a normal or uniform distribution), thereby discouraging representation
change during fine-tuning when possible without hurting performance. We also
introduce a new analysis to motivate the use of trust region methods more
generally, by studying representational collapse; the degradation of
generalizable representations from pre-trained models as they are fine-tuned
for a specific end task. Extensive experiments show that our fine-tuning method
matches or exceeds the performance of previous trust region methods on a range
of understanding and generation tasks (including DailyMail/CNN, Gigaword,
Reddit TIFU, and the GLUE benchmark), while also being much faster. We also
show that it is less prone to representation collapse; the pre-trained models
maintain more generalizable representations every time they are fine-tuned.
- Abstract(参考訳): 広く採用されているが、事前学習された言語モデルに対する既存のアプローチは、ハイパーパラメータの設定で不安定であることが示されている。
本稿では,従来使用されていた対数目標をパラメトリックノイズ(正規分布か均一分布か)に置き換え,性能を損なうことなく微調整時の表現変化を回避し,信頼領域理論に根ざした簡易かつ効率的な手法を提案する。
また, 信頼領域法をより一般的に活用するために, 表現的崩壊を研究することによって, 特定のエンドタスクに微調整された事前学習モデルからの一般化可能な表現の劣化を動機づける新たな分析手法を提案する。
広範囲な実験により、我々の微調整手法は、DailyMail/CNN、Gigaword、Reddit TIFU、GLUEベンチマークなど、様々な理解および生成タスクにおいて、従来の信頼領域メソッドのパフォーマンスと一致しているか、あるいは上回っていることがわかった。
事前訓練されたモデルは、微調整されるたびにより一般化可能な表現を維持している。
関連論文リスト
- Fine-Tuning Pre-trained Language Models for Robust Causal Representation Learning [26.29386609645171]
プレトレーニング言語モデル(PLM)の微調整は、様々な領域で有効であることが示されている。
本研究では, 分解仮定に基づいて, いわゆる因果前ドア調整によりロバスト表現を導出可能であることを示す。
そこで本研究では,表現学習に微調整機構と因果関係を導入することにより,領域一般化問題に光を当てる。
論文 参考訳(メタデータ) (2024-10-18T11:06:23Z) - Semi-Supervised Crowd Counting with Contextual Modeling: Facilitating Holistic Understanding of Crowd Scenes [19.987151025364067]
本稿では,信頼度の高い群集カウントモデルをトレーニングするための,新しい半教師付き手法を提案する。
モデルの本質的な'サブタイズ'能力を育み、領域の数を正確に見積もることができる。
提案手法は,従来の手法を,挑戦的ベンチマークにおいて大きな差で上回り,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-10-16T12:42:43Z) - Prompting Diffusion Representations for Cross-Domain Semantic
Segmentation [101.04326113360342]
拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。
本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
論文 参考訳(メタデータ) (2023-07-05T09:28:25Z) - Debiased Fine-Tuning for Vision-language Models by Prompt Regularization [50.41984119504716]
本稿では,Prompt Regularization(ProReg)と呼ばれる下流タスクにおける大規模視覚事前訓練モデルの微調整のための新しいパラダイムを提案する。
ProRegは、事前訓練されたモデルに微調整を正規化するよう促すことで予測を使用する。
本稿では,従来の微調整,ゼロショットプロンプト,プロンプトチューニング,その他の最先端手法と比較して,ProRegの性能が一貫して高いことを示す。
論文 参考訳(メタデータ) (2023-01-29T11:53:55Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Transfer Learning Gaussian Anomaly Detection by Fine-Tuning
Representations [3.5031508291335625]
破滅的な忘れは、新しいデータセット上で事前訓練された表現の微調整を成功させるのを防ぐ。
本稿では,移動学習環境におけるADの学習表現を微調整する手法を提案する。
また,破滅的忘れの開始を検知するバリデーションスキームにおいて,胸部リスクに一般的に使用される拡張法を提案する。
論文 参考訳(メタデータ) (2021-08-09T15:29:04Z) - Squared $\ell_2$ Norm as Consistency Loss for Leveraging Augmented Data
to Learn Robust and Invariant Representations [76.85274970052762]
元のサンプルと拡張されたサンプルの埋め込み/表現の距離を規則化することは、ニューラルネットワークの堅牢性を改善するための一般的なテクニックである。
本稿では、これらの様々な正規化選択について検討し、埋め込みの正規化方法の理解を深める。
私たちが特定したジェネリックアプローチ(squared $ell$ regularized augmentation)は、それぞれ1つのタスクのために特別に設計されたいくつかの手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-25T22:40:09Z) - FAR: A General Framework for Attributional Robustness [42.49606659285249]
我々は、ロバストな属性を持つモデルの帰属的ロバストネス(FAR)のための新しいフレームワークを定義する。
FARは,既存のトレーニング手法の一般化,制約の少ない定式化であることを示す。
次に、このフレームワークの2つの新しいインスタンス化であるAATとAdvAATを提案し、ロバストな属性と予測の両方を直接最適化する。
論文 参考訳(メタデータ) (2020-10-14T20:33:00Z) - Learning Invariant Representations and Risks for Semi-supervised Domain
Adaptation [109.73983088432364]
半教師付きドメイン適応(Semi-DA)の設定の下で不変表現とリスクを同時に学習することを目的とした最初の手法を提案する。
共同で textbfLearning textbfInvariant textbfRepresentations と textbfRisks の LIRR アルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-10-09T15:42:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。