論文の概要: A Stability Analysis of Fine-Tuning a Pre-Trained Model
- arxiv url: http://arxiv.org/abs/2301.09820v1
- Date: Tue, 24 Jan 2023 05:11:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-25 14:18:36.990073
- Title: A Stability Analysis of Fine-Tuning a Pre-Trained Model
- Title(参考訳): 事前学習モデルによる微調整の安定性解析
- Authors: Zihao Fu, Anthony Man-Cho So, Nigel Collier
- Abstract要約: 訓練済みモデルの微調整は、最近のNLP研究で最も有望なパラダイムの1つである。
微調整は不安定な問題、すなわち同じ設定で同じモデルをチューニングすることで、性能が著しく異なる。
本稿では,2つの一般的な設定に焦点をあてたファインチューニングの理論的安定性解析を提案する。
- 参考スコア(独自算出の注目度): 46.15355087852563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning a pre-trained model (such as BERT, ALBERT, RoBERTa, T5, GPT,
etc.) has proven to be one of the most promising paradigms in recent NLP
research. However, numerous recent works indicate that fine-tuning suffers from
the instability problem, i.e., tuning the same model under the same setting
results in significantly different performance. Many recent works have proposed
different methods to solve this problem, but there is no theoretical
understanding of why and how these methods work. In this paper, we propose a
novel theoretical stability analysis of fine-tuning that focuses on two
commonly used settings, namely, full fine-tuning and head tuning. We define the
stability under each setting and prove the corresponding stability bounds. The
theoretical bounds explain why and how several existing methods can stabilize
the fine-tuning procedure. In addition to being able to explain most of the
observed empirical discoveries, our proposed theoretical analysis framework can
also help in the design of effective and provable methods. Based on our theory,
we propose three novel strategies to stabilize the fine-tuning procedure,
namely, Maximal Margin Regularizer (MMR), Multi-Head Loss (MHLoss), and Self
Unsupervised Re-Training (SURT). We extensively evaluate our proposed
approaches on 11 widely used real-world benchmark datasets, as well as hundreds
of synthetic classification datasets. The experiment results show that our
proposed methods significantly stabilize the fine-tuning procedure and also
corroborate our theoretical analysis.
- Abstract(参考訳): トレーニング済みモデル(BERT、ALBERT、RoBERTa、T5、GPTなど)の微調整は、最近のNLP研究で最も有望なパラダイムの1つであることが証明されている。
しかし、最近の多くの研究は、微調整が不安定な問題、すなわち同じ設定で同じモデルをチューニングすることで、性能が著しく異なることを示している。
近年の多くの研究でこの問題を解決するための様々な方法が提案されているが、これらの方法がなぜどのように機能するのかは理論的に理解されていない。
本稿では,2つの一般的な設定,すなわちフル微調整とヘッドチューニングに焦点を当てたファインチューニングの理論的安定性解析を提案する。
各設定の下で安定性を定義し、対応する安定性境界を証明する。
理論的境界は、いくつかの既存手法が微調整手順を安定化できる理由と方法を説明する。
観測された経験的発見のほとんどを説明することに加えて,提案する理論分析フレームワークは,有効かつ証明可能な手法の設計にも役立てることができる。
本理論に基づき, 最大マージン正則化 (mmr), マルチヘッド損失 (mhloss), 自己教師なし再訓練 (surt) という, 微調整手順を安定化するための3つの新しい戦略を提案する。
11のベンチマークデータセットと数百の合成分類データセットについて,提案手法を広範囲に評価した。
実験の結果,提案手法は微調整手順を著しく安定化し,理論解析と相関することがわかった。
関連論文リスト
- See Further for Parameter Efficient Fine-tuning by Standing on the Shoulders of Decomposition [56.87609859444084]
パラメータ効率の細かいチューニング(PEFT)は、パラメータの選択したサブセットを最適化し、残りを固定し、計算とストレージのオーバーヘッドを大幅に削減することに焦点を当てている。
分解の観点からそれらを分離することで、すべてのアプローチを統一する第一歩を踏み出します。
本稿では,PEFT技術の性能向上を目的とした,単純かつ効果的なフレームワークとともに,新しい2つのPEFT手法を提案する。
論文 参考訳(メタデータ) (2024-07-07T15:44:42Z) - A Unified Theory of Stochastic Proximal Point Methods without Smoothness [52.30944052987393]
近点法はその数値的安定性と不完全なチューニングに対する頑健性からかなりの関心を集めている。
本稿では,近位点法(SPPM)の幅広いバリエーションの包括的解析について述べる。
論文 参考訳(メタデータ) (2024-05-24T21:09:19Z) - Bayesian Nonparametrics Meets Data-Driven Distributionally Robust Optimization [29.24821214671497]
機械学習と統計モデルのトレーニングは、しばしばデータ駆動型リスク基準の最適化を伴う。
ベイズ的非パラメトリック(ディリクレ過程)理論と、スムーズなあいまいさ-逆選好の最近の決定論的モデルを組み合わせた、新しいロバストな基準を提案する。
実用的な実装として、よく知られたディリクレプロセスの表現に基づいて、評価基準の抽出可能な近似を提案し、研究する。
論文 参考訳(メタデータ) (2024-01-28T21:19:15Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - On the Effectiveness of Parameter-Efficient Fine-Tuning [79.6302606855302]
現在、多くの研究が、パラメータのごく一部のみを微調整し、異なるタスク間で共有されるパラメータのほとんどを保持することを提案している。
これらの手法は, いずれも細粒度モデルであり, 新たな理論的解析を行う。
我々の理論に根ざした空間性の有効性にもかかわらず、調整可能なパラメータをどう選ぶかという問題はまだ未解決のままである。
論文 参考訳(メタデータ) (2022-11-28T17:41:48Z) - Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for
Pre-trained Language Models [90.24999406296867]
標準の微調整とは対照的に、デルタチューニングはモデルパラメータのごく一部を微調整するだけであり、残りは触れないままである。
近年の研究では、パラメータ選択の異なる一連のデルタチューニング手法が、フルパラメータの微調整と同等の性能を達成できることが示されている。
論文 参考訳(メタデータ) (2022-03-14T07:56:32Z) - On the Stability of Fine-tuning BERT: Misconceptions, Explanations, and
Strong Baselines [31.807628937487927]
BERTのような微調整済みの言語モデルは、様々なNLPベンチマークでリーダーボードを独占する一般的なプラクティスとなっている。
以前の文献では、破滅的な忘れ物と微調整データセットの小さなサイズの2つの潜在的な原因が明らかになった。
どちらの仮説も微調整の不安定性を説明できないことを示す。
論文 参考訳(メタデータ) (2020-06-08T19:06:24Z) - Real-Time Model Calibration with Deep Reinforcement Learning [4.707841918805165]
本稿では,強化学習に基づくモデルパラメータ推定のための新しいフレームワークを提案する。
提案手法を2つのモデルベース診断試験ケースで実証し, 評価した。
論文 参考訳(メタデータ) (2020-06-07T00:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。