論文の概要: Trainable Projected Gradient Method for Robust Fine-tuning
- arxiv url: http://arxiv.org/abs/2303.10720v1
- Date: Sun, 19 Mar 2023 17:30:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 17:36:24.954691
- Title: Trainable Projected Gradient Method for Robust Fine-tuning
- Title(参考訳): ロバスト微調整のためのトレーサブルプロジェクテッドグラデーション法
- Authors: Junjiao Tian, Xiaoliang Dai, Chih-Yao Ma, Zecheng He, Yen-Cheng Liu,
Zsolt Kira
- Abstract要約: 本研究では,各層に課される制約を自動的に学習し,微粒な微調整正規化を実現するために,TPGM(Traiable Projected Gradient Method)を提案する。
これは二段階制約最適化問題としてファインチューニングを定式化することによって動機付けられる。
TPGM は OOD 性能における既存の微調整手法よりも優れた性能を示し,ID 性能に適合することを示した。
- 参考スコア(独自算出の注目度): 36.470333094917436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies on transfer learning have shown that selectively fine-tuning a
subset of layers or customizing different learning rates for each layer can
greatly improve robustness to out-of-distribution (OOD) data and retain
generalization capability in the pre-trained models. However, most of these
methods employ manually crafted heuristics or expensive hyper-parameter
searches, which prevent them from scaling up to large datasets and neural
networks. To solve this problem, we propose Trainable Projected Gradient Method
(TPGM) to automatically learn the constraint imposed for each layer for a
fine-grained fine-tuning regularization. This is motivated by formulating
fine-tuning as a bi-level constrained optimization problem. Specifically, TPGM
maintains a set of projection radii, i.e., distance constraints between the
fine-tuned model and the pre-trained model, for each layer, and enforces them
through weight projections. To learn the constraints, we propose a bi-level
optimization to automatically learn the best set of projection radii in an
end-to-end manner. Theoretically, we show that the bi-level optimization
formulation is the key to learning different constraints for each layer.
Empirically, with little hyper-parameter search cost, TPGM outperforms existing
fine-tuning methods in OOD performance while matching the best in-distribution
(ID) performance. For example, when fine-tuned on DomainNet-Real and ImageNet,
compared to vanilla fine-tuning, TPGM shows $22\%$ and $10\%$ relative OOD
improvement respectively on their sketch counterparts. Code is available at
\url{https://github.com/PotatoTian/TPGM}.
- Abstract(参考訳): トランスファーラーニングの最近の研究は、各レイヤのサブセットを選択的に微調整したり、各レイヤごとに異なる学習率をカスタマイズすることで、アウト・オブ・ディストリビューション(OOD)データに対するロバスト性を大幅に改善し、事前訓練されたモデルにおける一般化能力を維持できることを示した。
しかし、これらの手法のほとんどは手作業によるヒューリスティックスや高価なハイパーパラメータ検索を採用しており、大規模なデータセットやニューラルネットワークにスケールアップできない。
そこで本研究では,各層に課される制約を自動的に学習し,微粒な微調整正規化を実現するためのTPGMを提案する。
これは二段階制約最適化問題としてファインチューニングを定式化することによって動機付けられる。
具体的には、TPGMは、各層に対して細調整されたモデルと事前訓練されたモデルの間の距離制約という一連の射影半径を維持し、それらを重み予測によって強制する。
制約を学習するために,最善の射影radiiをエンドツーエンドで自動学習する2レベル最適化を提案する。
理論的には、二段階最適化の定式化が各層の異なる制約を学習する鍵であることを示す。
実証的には、超パラメータ探索コストが少なく、TPGMはOOD性能において既存の微調整方法よりも優れており、ID性能が最適である。
例えば、DomainNet-RealとImageNetで微調整された場合、バニラの微調整と比較して、TPGMはスケッチでそれぞれ22\%と10\%のOOD改善を示している。
コードは \url{https://github.com/PotatoTian/TPGM} で入手できる。
関連論文リスト
- PACE: marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization [35.922096876707975]
PACE は PArameter- efficient fine-tuning with Consistency rEgularization の一般化である。
PACEは、拡張一般化のための勾配を暗黙的に正規化するだけでなく、微調整および事前訓練されたモデルも暗黙的に整列して知識を保持することを示す。
PACEは、VTAB-1k、FGVC、少数ショット学習、ドメイン適応の4つの視覚適応タスクにおいて、既存のPEFTメソッドよりも優れている。
論文 参考訳(メタデータ) (2024-09-25T17:56:00Z) - Comparative Analysis of Different Efficient Fine Tuning Methods of Large Language Models (LLMs) in Low-Resource Setting [0.0]
我々は、大規模言語モデル(LLM)の様々な微調整戦略の理解を深めようとしている。
我々は,2つのデータセット(COLAとMNLI)で事前学習したモデルに対して,バニラファインチューニングやPBFT(Pattern-Based Fine-Tuning)のような最先端の手法を比較した。
以上の結果から,バニラFTやPBFTに匹敵する領域外一般化が期待できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-21T20:08:52Z) - AutoFT: Learning an Objective for Robust Fine-Tuning [60.641186718253735]
ファンデーションモデルは、微調整によって下流タスクに適応できるリッチな表現をエンコードする。
手作り正則化技術を用いた頑健な微調整への最近のアプローチ
我々は、堅牢な微調整のためのデータ駆動型アプローチであるAutoFTを提案する。
論文 参考訳(メタデータ) (2024-01-18T18:58:49Z) - Functional Graphical Models: Structure Enables Offline Data-Driven Optimization [111.28605744661638]
構造がサンプル効率のよいデータ駆動最適化を実現する方法を示す。
また、FGM構造自体を推定するデータ駆動最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-08T22:33:14Z) - Fast Trainable Projection for Robust Fine-Tuning [36.51660287722338]
ロバスト微調整は、競争力のある分散内分散(ID)性能を達成することを目的としている。
プロジェクションベースの微調整は頑健な微調整に成功している。
Fast Trainable Projectionはプロジェクションベースのファインチューニングアルゴリズムである。
論文 参考訳(メタデータ) (2023-10-29T22:52:43Z) - Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。
我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。
得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文 参考訳(メタデータ) (2022-11-16T21:55:05Z) - BBTv2: Pure Black-Box Optimization Can Be Comparable to Gradient Descent
for Few-Shot Learning [83.26610968655815]
Black-Box Tuningは、言語モデルの入力に先立って、連続的なプロンプトトークンを最適化するためのデリバティブフリーなアプローチである。
BBTv2は、言語モデルをグラデーションベースの最適化に匹敵する結果を得るために駆動する、純粋なブラックボックス最適化手法である。
論文 参考訳(メタデータ) (2022-05-23T11:10:19Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Adapting by Pruning: A Case Study on BERT [9.963251767416967]
対象タスクの性能を最適化するために,事前学習したモデルの神経接続をpruneするプラニングにより適応する新しいモデル適応パラダイムを提案する。
本稿では, 最適化問題として適応分割法を定式化し, モデル作成のための効率的なアルゴリズムを提案する。
以上の結果から,提案手法は細調整フルモデルと同等の性能を示しながら,BERTの最大50%の重み付けが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-05-07T15:51:08Z) - Learning Reasoning Strategies in End-to-End Differentiable Proving [50.9791149533921]
条件付き定理プローバーは勾配に基づく最適化により最適規則選択戦略を学習する。
条件付き定理プローサは拡張性があり、CLUTRRデータセット上で最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2020-07-13T16:22:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。