論文の概要: Fast Trainable Projection for Robust Fine-Tuning
- arxiv url: http://arxiv.org/abs/2310.19182v1
- Date: Sun, 29 Oct 2023 22:52:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 13:44:38.845767
- Title: Fast Trainable Projection for Robust Fine-Tuning
- Title(参考訳): ロバストファインチューニングのための高速プロジェクション
- Authors: Junjiao Tian, Yen-Cheng Liu, James Seale Smith, Zsolt Kira
- Abstract要約: ロバスト微調整は、競争力のある分散内分散(ID)性能を達成することを目的としている。
プロジェクションベースの微調整は頑健な微調整に成功している。
Fast Trainable Projectionはプロジェクションベースのファインチューニングアルゴリズムである。
- 参考スコア(独自算出の注目度): 36.51660287722338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust fine-tuning aims to achieve competitive in-distribution (ID)
performance while maintaining the out-of-distribution (OOD) robustness of a
pre-trained model when transferring it to a downstream task. Recently,
projected gradient descent has been successfully used in robust fine-tuning by
constraining the deviation from the initialization of the fine-tuned model
explicitly through projection. However, algorithmically, two limitations
prevent this method from being adopted more widely, scalability and efficiency.
In this paper, we propose a new projection-based fine-tuning algorithm, Fast
Trainable Projection (FTP) for computationally efficient learning of per-layer
projection constraints, resulting in an average $35\%$ speedup on our
benchmarks compared to prior works. FTP can be combined with existing
optimizers such as AdamW, and be used in a plug-and-play fashion. Finally, we
show that FTP is a special instance of hyper-optimizers that tune the
hyper-parameters of optimizers in a learnable manner through nested
differentiation. Empirically, we show superior robustness on OOD datasets,
including domain shifts and natural corruptions, across four different vision
tasks with five different pre-trained models. Additionally, we demonstrate that
FTP is broadly applicable and beneficial to other learning scenarios such as
low-label and continual learning settings thanks to its easy adaptability. The
code will be available at https://github.com/GT-RIPL/FTP.git.
- Abstract(参考訳): robust fine-tuningは、ダウンストリームタスクに転送する際、事前トレーニングされたモデルのout-of-distribution(ood)ロバスト性を維持しながら、競合的なin-distribution(id)性能を達成することを目指している。
近年,プロジェクションによる微調整モデルの初期化から逸脱を制限し,ロバストな微調整に投影勾配降下が有効である。
しかし、アルゴリズム的には、この方法がより広く採用されるのを妨げる2つの制限、スケーラビリティと効率性である。
本稿では,各層毎のプロジェクション制約を計算効率良く学習するための,新しいプロジェクションに基づく微調整アルゴリズムであるfast trainable projection (ftp)を提案する。
ftpはadamwなどの既存のオプティマイザと組み合わせて、プラグアンドプレイ方式で使用することができる。
最後に、FTPは、ネストした微分を通して学習可能な方法でオプティマイザのハイパーパラメータをチューニングするハイパー最適化の特別な例であることを示す。
実証的には、ドメインシフトや自然破壊を含むOODデータセットに対して、5つのトレーニング済みモデルを持つ4つの異なるビジョンタスクに対して、優れた堅牢性を示す。
さらに,FTPは適応性の向上により,低ラベルや連続的な学習設定といった他の学習シナリオにも適用可能であることも実証した。
コードはhttps://github.com/GT-RIPL/FTP.gitで入手できる。
関連論文リスト
- Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Optimization-Free Test-Time Adaptation for Cross-Person Activity
Recognition [30.350005654271868]
Test-Time Adaptationは、テストストリームを使用して、リアルタイムの推論で予測を調整することを目的としている。
計算コストが高いため、リソース制約のあるエッジデバイス上での動作が困難になる。
センサベースHARのための最適化自由テスト時間適応フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-28T02:20:33Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - Prototype-based HyperAdapter for Sample-Efficient Multi-task Tuning [30.251155072822055]
Prototype-based HyperAdapter (PHA)は、アダプタチューニングとハイパーネットワーク上に構築された新しいフレームワークである。
サンプル効率のよい条件付きモジュールを生成するために、インスタンスdenseレトリバーとプロトタイプのハイパーネットワークを導入する。
PHAは、トレーニング可能なパラメータ、ストリームタスクの精度、サンプル効率のトレードオフをより良くすることを示す。
論文 参考訳(メタデータ) (2023-10-18T02:42:17Z) - Trainable Projected Gradient Method for Robust Fine-tuning [36.470333094917436]
本研究では,各層に課される制約を自動的に学習し,微粒な微調整正規化を実現するために,TPGM(Traiable Projected Gradient Method)を提案する。
これは二段階制約最適化問題としてファインチューニングを定式化することによって動機付けられる。
TPGM は OOD 性能における既存の微調整手法よりも優れた性能を示し,ID 性能に適合することを示した。
論文 参考訳(メタデータ) (2023-03-19T17:30:44Z) - Parameter-Efficient Transfer Learning with Diff Pruning [108.03864629388404]
diff pruningは、プリトレイン・ファインチューンフレームワーク内でパラメータ効率の高い転送学習を可能にするシンプルなアプローチです。
diff pruningで微調整されたモデルは、GLUEベンチマークで完全に微調整されたベースラインのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2020-12-14T12:34:01Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。