論文の概要: Domain Generalization Using Large Pretrained Models with
Mixture-of-Adapters
- arxiv url: http://arxiv.org/abs/2310.11031v1
- Date: Tue, 17 Oct 2023 07:01:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 17:24:57.814244
- Title: Domain Generalization Using Large Pretrained Models with
Mixture-of-Adapters
- Title(参考訳): 混合適応型大規模事前学習モデルによる領域一般化
- Authors: Gyuseong Lee, Wooseok Jang, Jin Hyeon Kim, Jaewoo Jung, Seungryong Kim
- Abstract要約: ドメイン一般化(DG)アルゴリズムは、異なる分布上で訓練されたモデルの性能を維持することを目的としている。
我々は、Mix of-Adapters (MoA) と呼ばれる、Mix of-Exertベースのアダプタ微調整法を提案する。
- 参考スコア(独自算出の注目度): 35.834509022013435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning a robust vision model despite large distribution shift is essential
for model deployment in real-world settings. Especially, domain generalization
(DG) algorithm aims to maintain the performance of a trained model on different
distributions which were not seen during training. One of the most effective
methods has been leveraging the already learned rich knowledge of large
pretrained models. However, naively fine-tuning large models to DG tasks is
often practically infeasible due to memory limitations, extensive time
requirements for training, and the risk of learned knowledge deterioration.
Recently, parameter-efficient fine-tuning (PEFT) methods have been proposed to
reduce the high computational cost during training and efficiently adapt large
models to downstream tasks. In this work, for the first time, we find that the
use of adapters in PEFT methods not only reduce high computational cost during
training but also serve as an effective regularizer for DG tasks. Surprisingly,
a naive adapter implementation for large models achieve superior performance on
common datasets. However, in situations of large distribution shifts,
additional factors such as optimal amount of regularization due to the strength
of distribution shifts should be considered for a sophisticated adapter
implementation. To address this, we propose a mixture-of-expert based adapter
fine-tuning method, dubbed as mixture-of-adapters (MoA). Specifically, we
employ multiple adapters that have varying capacities, and by using learnable
routers, we allocate each token to a proper adapter. By using both PEFT and MoA
methods, we effectively alleviate the performance deterioration caused by
distribution shifts and achieve state-of-the-art performance on diverse DG
benchmarks.
- Abstract(参考訳): 大規模な分散シフトにもかかわらず、堅牢なビジョンモデルを学ぶことは、実際の環境でのモデル展開に不可欠である。
特に、ドメイン一般化(DG)アルゴリズムは、トレーニング中に見られなかった異なる分布上で訓練されたモデルの性能を維持することを目的としている。
最も効果的な方法の1つは、大きな事前訓練されたモデルの学習済みの豊富な知識を活用することである。
しかし、大きなモデルをDGタスクに微調整することは、記憶力の制限、トレーニングの広範な時間要件、学習知識の劣化のリスクにより、事実上不可能であることが多い。
近年,訓練中の計算コストを低減し,大規模モデルを下流タスクに効率的に適応させるために,パラメータ効率の良い微調整(peft)法が提案されている。
本研究は,PEFT法におけるアダプタの使用により,トレーニング中の高い計算コストを低減できるだけでなく,DGタスクの効果的な正則化にも有効であることが確認された。
驚いたことに、大規模モデルの単純実装は共通のデータセット上で優れたパフォーマンスを実現する。
しかし,大規模分布シフトの場合,高度なアダプタ実装では,分布シフトの強度による最適正規化量などの追加要素を考慮する必要がある。
そこで本研究では,mixed-of-adapters (moa) と呼ばれる,エキスパート・ベースのアダプタ・微調整手法を提案する。
具体的には,様々なキャパシティを持つ複数のアダプタを採用し,学習可能なルータを用いて各トークンを適切なアダプタに割り当てる。
PEFT法とMoA法の両方を用いて,分散シフトによる性能劣化を効果的に軽減し,多種多様なDGベンチマークにおける最先端性能を実現する。
関連論文リスト
- Feature Protection For Out-of-distribution Generalization [24.072876186625855]
事前訓練された特徴の保護は、より厳密に調整されたモデルが一般化に結びつくことを示す。
事前訓練された特徴の保護は,OODの一般化に対してより堅牢な微調整モデルをもたらすことを示す。
論文 参考訳(メタデータ) (2024-05-25T03:00:06Z) - Efficiency at Scale: Investigating the Performance of Diminutive
Language Models in Clinical Tasks [2.834743715323873]
本稿では,臨床意思決定タスクにおけるPEFT法の適合性について検討する。
分析の結果,ほとんどのPEFT手法の性能はタスクによって大きく異なることがわかった。
臨床領域におけるPEFT法の有効性は明らかであり、特に低コストで社内の計算インフラで運用できる専門モデルでは顕著である。
論文 参考訳(メタデータ) (2024-02-16T11:30:11Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Model Agnostic Sample Reweighting for Out-of-Distribution Learning [38.843552982739354]
我々は,OOD問題に効果的に対応するために,基本的手法であるtextbfAgnostic SamtextbfPLe rtextbfEweighting (textbfMAPLE)を提案する。
我々のキーとなる考え方は、トレーニングサンプルを効果的に再重み付けすることで、大規模モデルの標準的な経験的リスク最小化トレーニングがOOD一般化性能に優れたものとなるようにすることである。
論文 参考訳(メタデータ) (2023-01-24T05:11:03Z) - Are Sample-Efficient NLP Models More Robust? [90.54786862811183]
サンプル効率(所定のID精度に到達するために必要なデータ量)とロバスト性(OOD評価モデルの評価方法)の関係について検討する。
高いサンプル効率は、いくつかのモデリング介入やタスクにおいて、より平均的なOODロバスト性にのみ相関するが、それ以外は相関しない。
これらの結果から,サンプル効率向上のための汎用手法は,データセットとタスクに依存した汎用的なOODロバスト性向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2022-10-12T17:54:59Z) - SimSCOOD: Systematic Analysis of Out-of-Distribution Generalization in
Fine-tuned Source Code Models [58.78043959556283]
本研究は,Low-Rank Adaptation (LoRA)ファインチューニング手法を含む,異なる微調整手法によるモデルの挙動について検討する。
解析の結果、LoRAファインチューニングは様々なシナリオにおけるフルファインチューニングよりも、OODの一般化性能が大幅に向上していることが判明した。
論文 参考訳(メタデータ) (2022-10-10T16:07:24Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Sample-Efficient Reinforcement Learning via Conservative Model-Based
Actor-Critic [67.00475077281212]
モデルベース強化学習アルゴリズムは、モデルフリーのアルゴリズムよりもサンプル効率が高い。
本稿では,精度の高い学習モデルに強く依存することなく,高いサンプル効率を実現する新しい手法を提案する。
CMBACは,いくつかの課題に対して,サンプル効率の点で最先端のアプローチを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-12-16T15:33:11Z) - Sample Efficient Reinforcement Learning via Model-Ensemble Exploration
and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。
我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-05T07:18:20Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。