Fugu-MT 論文翻訳(概要): PACE: marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization

論文の概要: PACE: marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization

arxiv url: http://arxiv.org/abs/2409.17137v2
Date: Sat, 2 Nov 2024 03:27:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 17:00:06.948843
Title: PACE: marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization
Title（参考訳）: PACE: Consistency rEgularizationを用いたパラメータ効率微調整における結婚一般化
Authors: Yao Ni, Shan Zhang, Piotr Koniusz,
Abstract要約: PACE は PArameter- efficient fine-tuning with Consistency rEgularization の一般化である。 PACEは、拡張一般化のための勾配を暗黙的に正規化するだけでなく、微調整および事前訓練されたモデルも暗黙的に整列して知識を保持することを示す。 PACEは、VTAB-1k、FGVC、少数ショット学習、ドメイン適応の4つの視覚適応タスクにおいて、既存のPEFTメソッドよりも優れている。
参考スコア（独自算出の注目度）: 35.922096876707975
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Parameter-Efficient Fine-Tuning (PEFT) effectively adapts pre-trained vision transformers to downstream tasks. However, the optimization for tasks performance often comes at the cost of generalizability in fine-tuned models. To address this issue, we theoretically connect smaller weight gradient norms during training and larger datasets to the improved model generalization. Motivated by this connection, we propose reducing gradient norms for enhanced generalization and aligning fine-tuned model with the pre-trained counterpart to retain knowledge from large-scale pre-training data. Yet, naive alignment does not guarantee gradient reduction and can potentially cause gradient explosion, complicating efforts to manage gradients. To address such issues, we propose PACE, marrying generalization of PArameter-efficient fine-tuning with Consistency rEgularization. We perturb features learned from the adapter with the multiplicative noise and ensure the fine-tuned model remains consistent for same sample under different perturbations. Theoretical analysis shows that PACE not only implicitly regularizes gradients for enhanced generalization, but also implicitly aligns the fine-tuned and pre-trained models to retain knowledge. Experimental evidence supports our theories. PACE outperforms existing PEFT methods in four visual adaptation tasks: VTAB-1k, FGVC, few-shot learning and domain adaptation. Code will be available at https://github.com/MaxwellYaoNi/PACE
Abstract（参考訳）: パラメータ効率の良いファインチューニング(PEFT)は、トレーニング済みの視覚変換器を下流のタスクに効果的に適応させる。しかし、タスク性能の最適化はしばしば微調整モデルにおける一般化可能性のコストがかかる。この問題に対処するため、理論上、トレーニング中の体重勾配の基準を小さくし、より大きなデータセットを改良されたモデル一般化に結び付ける。この接続により、大規模事前学習データからの知識を維持するために、一般化の強化と微調整モデルと事前学習モデルとの整合性向上のための勾配ノルムの削減を提案する。しかし、ナイーブアライメントは勾配の減少を保証せず、勾配の爆発を引き起こす可能性があり、勾配を管理する努力が複雑になる。このような問題に対処するため、我々はPACEを提案し、パラメータ効率の微調整と一貫性の rEgularization を結合する。我々は、乗法雑音のアダプタから学んだ特徴を摂動し、異なる摂動の下で同じサンプルに対して微調整されたモデルが一貫していることを保証する。理論的解析によると、PACEは一般化の強化のために勾配を暗黙的に正規化するだけでなく、微調整されたモデルや事前訓練されたモデルも暗黙的に整列して知識を保持する。実験的な証拠が我々の理論を裏付ける。 PACEは、VTAB-1k、FGVC、少数ショット学習、ドメイン適応の4つの視覚適応タスクにおいて、既存のPEFTメソッドよりも優れている。コードはhttps://github.com/MaxwellYaoNi/PACEで入手できる。

関連論文リスト

The Optimal Token Baseline: Variance Reduction for Long-Horizon LLM-RL [39.23942538769713]
大規模言語モデルのための強化学習(LLMs)は、勾配のばらつきが爆発的に広がるため、長い水平タスクのトレーニング崩壊に悩まされることが多い。我々は、最適トークンベースライン(OTB)を第一原理から導出し、勾配更新が累積勾配ノルムに逆向きに重み付けされるべきであることを証明した。提案手法はトレーニングの安定性を達成し,N=32$の大規模グループサイズとの性能を一致させ,シングルターンおよびツール統合推論タスクにおけるトークン消費量を65%以上削減する。
論文参考訳（メタデータ） (2026-02-06T03:16:04Z)
Bilevel Learning via Inexact Stochastic Gradient Descent [5.312803257246881]
バイレベル最適化は、高次元ハイパーチューニングのための機械学習の中心的なツールである。両レベル最適化の不正確な理論を推し進める。我々は収束を証明し、減衰精度とステップサイズスケジュールでレートを確立する。
論文参考訳（メタデータ） (2025-11-10T07:02:52Z)
Gradient-based Fine-Tuning through Pre-trained Model Regularization [20.823624386591902]
重み行列の行や列を更新する効率的な勾配ベースおよび正規化微調整法(GRFT)を提案する。 GRFTは最先端のパフォーマンスを実現し、GPS、Adapter Tuning、LoRAといった既存の手法を超越している。
論文参考訳（メタデータ） (2025-06-14T14:41:03Z)
Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。非滑らかな正規化はしばしば機械学習タスクに組み込まれる。本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-17T08:32:25Z)
HG-Adapter: Improving Pre-Trained Heterogeneous Graph Neural Networks with Dual Adapters [53.97380482341493]
事前学習, 即時学習」は, 事前学習したヘテロジニアスグラフニューラルネットワーク(HGNN)のチューニング性能を示す。本稿では、2つの新しいアダプタと潜在的ラベル付きデータ拡張を組み合わせた統合フレームワークを提案し、事前学習されたHGNNモデルの一般化を改善する。
論文参考訳（メタデータ） (2024-11-02T06:43:54Z)
Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-08T11:24:59Z)
Forecast-PEFT: Parameter-Efficient Fine-Tuning for Pre-trained Motion Forecasting Models [68.23649978697027]
Forecast-PEFTは、モデルのパラメータの大部分を凍結し、新しく導入されたプロンプトとアダプタの調整に集中する微調整戦略である。実験の結果,Forecast-PEFTは動作予測タスクにおいて従来のフルチューニング手法よりも優れていた。 Forecast-FTは予測性能をさらに改善し、従来のベースライン法よりも最大9.6%向上した。
論文参考訳（メタデータ） (2024-07-28T19:18:59Z)
Learn to Preserve and Diversify: Parameter-Efficient Group with Orthogonal Regularization for Domain Generalization [28.977757627384165]
ドメイン・ドメイン(DG)は、限られたトレーニングデータと見つからないテストデータの間の分散シフトが発生したとき、モデルの性能劣化を避けることを目的としている。近年、膨大なパラメータを持つ基礎モデルは、膨大なデータセットで事前訓練されており、強力な一般化能力を示している。我々のフレームワークは5つのDGベンチマークでSOTA性能を実現し、テストコストを増すことなく少数のパラメータをトレーニングするのみである。
論文参考訳（メタデータ） (2024-07-21T07:50:49Z)
Gradient Projection For Continual Parameter-Efficient Tuning [42.800411328615894]
我々は勾配投影の観点からAdapter, LoRA, Prefix-tuning, Prompt-tuningを再構成する。大規模モデルであっても,勾配の条件は忘れることに効果的に抵抗できることを示す。多様なデータセットを用いて,VTやCLIPを含む異なるバックボーンを用いて,本手法を広範囲に評価した。
論文参考訳（メタデータ） (2024-05-22T06:33:48Z)
AdAdaGrad: Adaptive Batch Size Schemes for Adaptive Gradient Methods [17.043034606088234]
本稿では,AdAdaGradのスカラー変種AdAdaGradNormについて紹介する。また,画像分類実験を行い,提案手法のメリットを強調した。
論文参考訳（メタデータ） (2024-02-17T07:49:50Z)
Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。 GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文参考訳（メタデータ） (2023-12-19T06:06:30Z)
DR-Tune: Improving Fine-tuning of Pretrained Visual Models by Distribution Regularization with Semantic Calibration [38.4461170690033]
セマンティックキャリブレーションを用いた分布正規化(DR-Tune)という,新しい微調整フレームワークを提案する。 DR-Tuneは、下流タスクヘッドを強制して、事前訓練された特徴分布の分類誤差を低減することで、分散正則化を採用する。セマンティックドリフトによる干渉を軽減するため,セマンティックキャリブレーション(SC)モジュールを開発した。
論文参考訳（メタデータ） (2023-08-23T10:59:20Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Trainable Projected Gradient Method for Robust Fine-tuning [36.470333094917436]
本研究では,各層に課される制約を自動的に学習し,微粒な微調整正規化を実現するために,TPGM(Traiable Projected Gradient Method)を提案する。これは二段階制約最適化問題としてファインチューニングを定式化することによって動機付けられる。 TPGM は OOD 性能における既存の微調整手法よりも優れた性能を示し,ID 性能に適合することを示した。
論文参考訳（メタデータ） (2023-03-19T17:30:44Z)
Orthogonal SVD Covariance Conditioning and Latent Disentanglement [65.67315418971688]
SVDメタ層をニューラルネットワークに挿入すると、共分散が不調和になる。我々は最寄り直交勾配(NOG)と最適学習率(OLR)を提案する。視覚認識実験は,共分散条件と一般化を同時に改善できることを実証した。
論文参考訳（メタデータ） (2022-12-11T20:31:31Z)
Adapting Stepsizes by Momentumized Gradients Improves Optimization and Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。 textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。 textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文参考訳（メタデータ） (2021-06-22T03:13:23Z)
Evaluating Prediction-Time Batch Normalization for Robustness under Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文参考訳（メタデータ） (2020-06-19T05:08:43Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。