論文の概要: PAC-tuning:Fine-tuning Pretrained Language Models with PAC-driven
Perturbed Gradient Descent
- arxiv url: http://arxiv.org/abs/2310.17588v1
- Date: Thu, 26 Oct 2023 17:09:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 18:48:44.535273
- Title: PAC-tuning:Fine-tuning Pretrained Language Models with PAC-driven
Perturbed Gradient Descent
- Title(参考訳): pac-tuning:pac駆動摂動勾配を持つ微調整事前学習言語モデル
- Authors: Guangliang Liu, Zhiyu Xue, Xitong Zhang, Kristen Marie Johnson and
Rongrong Wang
- Abstract要約: 本稿では,この最適化課題に対処する2段階ファインチューニング手法であるPACチューニングを提案する。
PACチューニングは、適切なパラメータ分布を学習するために、PAC-Bayes境界を直接最小化する。
第2に、PACチューニングは、トレーニング中にモデルパラメータに学習したノイズを注入することで勾配を調整し、摂動降下の変異をもたらす。
- 参考スコア(独自算出の注目度): 11.866227238721939
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning pretrained language models (PLMs) for downstream tasks is a
large-scale optimization problem, in which the choice of the training algorithm
critically determines how well the trained model can generalize to unseen test
data, especially in the context of few-shot learning. To achieve good
generalization performance and avoid overfitting, techniques such as data
augmentation and pruning are often applied. However, adding these
regularizations necessitates heavy tuning of the hyperparameters of
optimization algorithms, such as the popular Adam optimizer. In this paper, we
propose a two-stage fine-tuning method, PAC-tuning, to address this
optimization challenge. First, based on PAC-Bayes training, PAC-tuning directly
minimizes the PAC-Bayes generalization bound to learn proper parameter
distribution. Second, PAC-tuning modifies the gradient by injecting noise with
the variance learned in the first stage into the model parameters during
training, resulting in a variant of perturbed gradient descent (PGD). In the
past, the few-shot scenario posed difficulties for PAC-Bayes training because
the PAC-Bayes bound, when applied to large models with limited training data,
might not be stringent. Our experimental results across 5 GLUE benchmark tasks
demonstrate that PAC-tuning successfully handles the challenges of fine-tuning
tasks and outperforms strong baseline methods by a visible margin, further
confirming the potential to apply PAC training for any other settings where the
Adam optimizer is currently used for training.
- Abstract(参考訳): 下流タスクのための微調整事前学習言語モデル(PLM)は、大規模な最適化問題であり、トレーニングアルゴリズムの選択は、トレーニングされたモデルがテストデータ、特に数ショット学習の文脈において、どれだけうまく一般化できるかを批判的に決定する。
一般化性能が良く、過度な適合を避けるため、データ拡張やプルーニングといった技法がよく用いられる。
しかし、これらの正規化の追加は、人気のあるadamオプティマイザのような最適化アルゴリズムのハイパーパラメータの重調整を必要とする。
本稿では,この最適化課題に対処する2段階ファインチューニング手法であるPACチューニングを提案する。
第一に、PAC-Bayesトレーニングに基づき、PAC-TuningはPAC-Bayes一般化を最小化し、適切なパラメータ分布を学習する。
第2に、PACチューニングは、トレーニング中にモデルパラメータに学習したノイズを注入することで勾配を調整し、乱れ勾配降下(PGD)の変種をもたらす。
過去には、PAC-Bayes境界が訓練データに制限のある大型モデルに適用された場合、制約がないため、PAC-Bayes訓練の難しさを招いた。
5つのGLUEベンチマークタスクに対する実験結果から,PACチューニングが微調整タスクの課題をうまく処理し,強力なベースライン手法を目に見えるマージンで上回ることを示すとともに,Adamオプティマイザが現在トレーニングに使用されている他の設定にPACトレーニングを適用する可能性を確認することができた。
関連論文リスト
- PACE: marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization [35.922096876707975]
PACE は PArameter- efficient fine-tuning with Consistency rEgularization の一般化である。
PACEは、拡張一般化のための勾配を暗黙的に正規化するだけでなく、微調整および事前訓練されたモデルも暗黙的に整列して知識を保持することを示す。
PACEは、VTAB-1k、FGVC、少数ショット学習、ドメイン適応の4つの視覚適応タスクにおいて、既存のPEFTメソッドよりも優れている。
論文 参考訳(メタデータ) (2024-09-25T17:56:00Z) - Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Improving Generalization of Complex Models under Unbounded Loss Using PAC-Bayes Bounds [10.94126149188336]
PAC-Bayes学習理論は、テストエラーの厳密な上限を確立することに重点を置いている。
PAC-Bayesトレーニングと呼ばれる最近提案されたトレーニング手順は、これらの境界を最小化するためにモデルを更新する。
このアプローチは理論的に健全であり、実際は、経験的リスク最小化(ERM)によって得られたものほど、テストエラーを達成していない。
PAC-Bayes トレーニングアルゴリズムを導入し,性能向上と事前チューニングへの依存度低減を実現した。
論文 参考訳(メタデータ) (2023-05-30T17:31:25Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - Large Language Models Can Be Strong Differentially Private Learners [70.0317718115406]
Differentially Private(DP)学習は、テキストの大規模なディープラーニングモデルを構築する上で、限られた成功を収めている。
この性能低下は,大規模な事前学習モデルを用いることで緩和可能であることを示す。
本稿では,DP-SGDにおけるクリッピングを,サンプルごとの勾配をインスタンス化せずに実行可能にするメモリ節約手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T01:45:27Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - PACOH: Bayes-Optimal Meta-Learning with PAC-Guarantees [77.67258935234403]
PAC-Bayesianフレームワークを用いた理論的解析を行い、メタ学習のための新しい一般化境界を導出する。
我々は、性能保証と原則付きメタレベル正規化を備えたPAC最適メタ学習アルゴリズムのクラスを開発する。
論文 参考訳(メタデータ) (2020-02-13T15:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。