論文の概要: PACE: marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization
- arxiv url: http://arxiv.org/abs/2409.17137v2
- Date: Sat, 2 Nov 2024 03:27:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 17:00:06.948843
- Title: PACE: marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization
- Title(参考訳): PACE: Consistency rEgularizationを用いたパラメータ効率微調整における結婚一般化
- Authors: Yao Ni, Shan Zhang, Piotr Koniusz,
- Abstract要約: PACE は PArameter- efficient fine-tuning with Consistency rEgularization の一般化である。
PACEは、拡張一般化のための勾配を暗黙的に正規化するだけでなく、微調整および事前訓練されたモデルも暗黙的に整列して知識を保持することを示す。
PACEは、VTAB-1k、FGVC、少数ショット学習、ドメイン適応の4つの視覚適応タスクにおいて、既存のPEFTメソッドよりも優れている。
- 参考スコア(独自算出の注目度): 35.922096876707975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter-Efficient Fine-Tuning (PEFT) effectively adapts pre-trained vision transformers to downstream tasks. However, the optimization for tasks performance often comes at the cost of generalizability in fine-tuned models. To address this issue, we theoretically connect smaller weight gradient norms during training and larger datasets to the improved model generalization. Motivated by this connection, we propose reducing gradient norms for enhanced generalization and aligning fine-tuned model with the pre-trained counterpart to retain knowledge from large-scale pre-training data. Yet, naive alignment does not guarantee gradient reduction and can potentially cause gradient explosion, complicating efforts to manage gradients. To address such issues, we propose PACE, marrying generalization of PArameter-efficient fine-tuning with Consistency rEgularization. We perturb features learned from the adapter with the multiplicative noise and ensure the fine-tuned model remains consistent for same sample under different perturbations. Theoretical analysis shows that PACE not only implicitly regularizes gradients for enhanced generalization, but also implicitly aligns the fine-tuned and pre-trained models to retain knowledge. Experimental evidence supports our theories. PACE outperforms existing PEFT methods in four visual adaptation tasks: VTAB-1k, FGVC, few-shot learning and domain adaptation. Code will be available at https://github.com/MaxwellYaoNi/PACE
- Abstract(参考訳): パラメータ効率の良いファインチューニング(PEFT)は、トレーニング済みの視覚変換器を下流のタスクに効果的に適応させる。
しかし、タスク性能の最適化はしばしば微調整モデルにおける一般化可能性のコストがかかる。
この問題に対処するため、理論上、トレーニング中の体重勾配の基準を小さくし、より大きなデータセットを改良されたモデル一般化に結び付ける。
この接続により、大規模事前学習データからの知識を維持するために、一般化の強化と微調整モデルと事前学習モデルとの整合性向上のための勾配ノルムの削減を提案する。
しかし、ナイーブアライメントは勾配の減少を保証せず、勾配の爆発を引き起こす可能性があり、勾配を管理する努力が複雑になる。
このような問題に対処するため、我々はPACEを提案し、パラメータ効率の微調整と一貫性の rEgularization を結合する。
我々は、乗法雑音のアダプタから学んだ特徴を摂動し、異なる摂動の下で同じサンプルに対して微調整されたモデルが一貫していることを保証する。
理論的解析によると、PACEは一般化の強化のために勾配を暗黙的に正規化するだけでなく、微調整されたモデルや事前訓練されたモデルも暗黙的に整列して知識を保持する。
実験的な証拠が我々の理論を裏付ける。
PACEは、VTAB-1k、FGVC、少数ショット学習、ドメイン適応の4つの視覚適応タスクにおいて、既存のPEFTメソッドよりも優れている。
コードはhttps://github.com/MaxwellYaoNi/PACEで入手できる。
関連論文リスト
- HG-Adapter: Improving Pre-Trained Heterogeneous Graph Neural Networks with Dual Adapters [53.97380482341493]
事前学習, 即時学習」は, 事前学習したヘテロジニアスグラフニューラルネットワーク(HGNN)のチューニング性能を示す。
本稿では、2つの新しいアダプタと潜在的ラベル付きデータ拡張を組み合わせた統合フレームワークを提案し、事前学習されたHGNNモデルの一般化を改善する。
論文 参考訳(メタデータ) (2024-11-02T06:43:54Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - AdAdaGrad: Adaptive Batch Size Schemes for Adaptive Gradient Methods [17.043034606088234]
本稿では,AdAdaGradのスカラー変種AdAdaGradNormについて紹介する。
また,画像分類実験を行い,提案手法のメリットを強調した。
論文 参考訳(メタデータ) (2024-02-17T07:49:50Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - DR-Tune: Improving Fine-tuning of Pretrained Visual Models by
Distribution Regularization with Semantic Calibration [38.4461170690033]
セマンティックキャリブレーションを用いた分布正規化(DR-Tune)という,新しい微調整フレームワークを提案する。
DR-Tuneは、下流タスクヘッドを強制して、事前訓練された特徴分布の分類誤差を低減することで、分散正則化を採用する。
セマンティックドリフトによる干渉を軽減するため,セマンティックキャリブレーション(SC)モジュールを開発した。
論文 参考訳(メタデータ) (2023-08-23T10:59:20Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Trainable Projected Gradient Method for Robust Fine-tuning [36.470333094917436]
本研究では,各層に課される制約を自動的に学習し,微粒な微調整正規化を実現するために,TPGM(Traiable Projected Gradient Method)を提案する。
これは二段階制約最適化問題としてファインチューニングを定式化することによって動機付けられる。
TPGM は OOD 性能における既存の微調整手法よりも優れた性能を示し,ID 性能に適合することを示した。
論文 参考訳(メタデータ) (2023-03-19T17:30:44Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。