論文の概要: Domain Generalization Using Large Pretrained Models with
Mixture-of-Adapters
- arxiv url: http://arxiv.org/abs/2310.11031v1
- Date: Tue, 17 Oct 2023 07:01:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 17:24:57.814244
- Title: Domain Generalization Using Large Pretrained Models with
Mixture-of-Adapters
- Title(参考訳): 混合適応型大規模事前学習モデルによる領域一般化
- Authors: Gyuseong Lee, Wooseok Jang, Jin Hyeon Kim, Jaewoo Jung, Seungryong Kim
- Abstract要約: ドメイン一般化(DG)アルゴリズムは、異なる分布上で訓練されたモデルの性能を維持することを目的としている。
我々は、Mix of-Adapters (MoA) と呼ばれる、Mix of-Exertベースのアダプタ微調整法を提案する。
- 参考スコア(独自算出の注目度): 35.834509022013435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning a robust vision model despite large distribution shift is essential
for model deployment in real-world settings. Especially, domain generalization
(DG) algorithm aims to maintain the performance of a trained model on different
distributions which were not seen during training. One of the most effective
methods has been leveraging the already learned rich knowledge of large
pretrained models. However, naively fine-tuning large models to DG tasks is
often practically infeasible due to memory limitations, extensive time
requirements for training, and the risk of learned knowledge deterioration.
Recently, parameter-efficient fine-tuning (PEFT) methods have been proposed to
reduce the high computational cost during training and efficiently adapt large
models to downstream tasks. In this work, for the first time, we find that the
use of adapters in PEFT methods not only reduce high computational cost during
training but also serve as an effective regularizer for DG tasks. Surprisingly,
a naive adapter implementation for large models achieve superior performance on
common datasets. However, in situations of large distribution shifts,
additional factors such as optimal amount of regularization due to the strength
of distribution shifts should be considered for a sophisticated adapter
implementation. To address this, we propose a mixture-of-expert based adapter
fine-tuning method, dubbed as mixture-of-adapters (MoA). Specifically, we
employ multiple adapters that have varying capacities, and by using learnable
routers, we allocate each token to a proper adapter. By using both PEFT and MoA
methods, we effectively alleviate the performance deterioration caused by
distribution shifts and achieve state-of-the-art performance on diverse DG
benchmarks.
- Abstract(参考訳): 大規模な分散シフトにもかかわらず、堅牢なビジョンモデルを学ぶことは、実際の環境でのモデル展開に不可欠である。
特に、ドメイン一般化(DG)アルゴリズムは、トレーニング中に見られなかった異なる分布上で訓練されたモデルの性能を維持することを目的としている。
最も効果的な方法の1つは、大きな事前訓練されたモデルの学習済みの豊富な知識を活用することである。
しかし、大きなモデルをDGタスクに微調整することは、記憶力の制限、トレーニングの広範な時間要件、学習知識の劣化のリスクにより、事実上不可能であることが多い。
近年,訓練中の計算コストを低減し,大規模モデルを下流タスクに効率的に適応させるために,パラメータ効率の良い微調整(peft)法が提案されている。
本研究は,PEFT法におけるアダプタの使用により,トレーニング中の高い計算コストを低減できるだけでなく,DGタスクの効果的な正則化にも有効であることが確認された。
驚いたことに、大規模モデルの単純実装は共通のデータセット上で優れたパフォーマンスを実現する。
しかし,大規模分布シフトの場合,高度なアダプタ実装では,分布シフトの強度による最適正規化量などの追加要素を考慮する必要がある。
そこで本研究では,mixed-of-adapters (moa) と呼ばれる,エキスパート・ベースのアダプタ・微調整手法を提案する。
具体的には,様々なキャパシティを持つ複数のアダプタを採用し,学習可能なルータを用いて各トークンを適切なアダプタに割り当てる。
PEFT法とMoA法の両方を用いて,分散シフトによる性能劣化を効果的に軽減し,多種多様なDGベンチマークにおける最先端性能を実現する。
関連論文リスト
- Adaptive Adapter Routing for Long-Tailed Class-Incremental Learning [55.384428765798496]
新しいデータは、Eコマースプラットフォームレビューのような、長期にわたる流通を示す。
これは、忘れずに不均衡なデータを連続的なモデルで学習する必要がある。
LTCILの例として,AdaPtive Adapter Routing (APART) を提案する。
論文 参考訳(メタデータ) (2024-09-11T17:52:00Z) - FL-TAC: Enhanced Fine-Tuning in Federated Learning via Low-Rank, Task-Specific Adapter Clustering [12.417857960556155]
Federated Learning(FL)は,さまざまなタスクデータを備えた大規模クライアント間の微調整を可能にすることで,有望なソリューションを提供する。
本稿では,FLフレームワーク内の大規模事前学習モデルを低ランク微調整により微調整する際の通信コストについて述べる。
論文 参考訳(メタデータ) (2024-04-23T10:50:38Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - TAIL: Task-specific Adapters for Imitation Learning with Large
Pretrained Models [32.83440439290383]
TAIL(Task-specific Adapters for Learning)は,新しい制御タスクに効率的に適応するためのフレームワークである。
言語領域におけるパラメータ効率の良い微調整の最近の進歩に触発されて,効率的な微調整技術を探究する。
大規模言語条件の操作タスクにおける実験から,LoRAを用いたTAILは適応後最高の性能が得られることが示唆された。
論文 参考訳(メタデータ) (2023-10-09T17:49:50Z) - MerA: Merging Pretrained Adapters For Few-Shot Learning [71.44422347502409]
モデル融合により,事前学習したアダプタを単一モデルに効率的に組み込むことができるtextbftextttMerging Pretrained Adapters (MerA)を提案する。
2つのPLMの実験では、MerAはシングルアダプタとAdapterFusionの両方と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2023-08-30T12:10:17Z) - A Comprehensive Analysis of Adapter Efficiency [20.63580880344425]
自然言語理解(NLU)タスクの場合, アダプタのパラメータ効率は, モデル全体の微調整に比べて, 効率向上に寄与しないことを示す。
NLUタスクの適度なサイズのモデルには、アダプタを使うのではなく、完全な微調整やマルチタスクのトレーニングに頼ることを推奨する。
論文 参考訳(メタデータ) (2023-05-12T14:05:45Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - To Adapt or to Fine-tune: A Case Study on Abstractive Summarization [7.353994554197792]
抽象的な要約の分野における最近の進歩は、ゼロからモデルを訓練するのではなく、事前訓練された言語モデルを活用する。
このようなモデルは訓練に適さないため、膨大なオーバーヘッドが伴う。
アダプタの使用が、パフォーマンスの不快な犠牲を伴わずに効率を向上するという点で、要約作業の恩恵を受けるかどうかは不明だ。
論文 参考訳(メタデータ) (2022-08-30T22:48:28Z) - AdapterBias: Parameter-efficient Token-dependent Representation Shift
for Adapters in NLP Tasks [55.705355299065474]
数百万のパラメータを持つトランスフォーマーベースの事前学習モデルは、大きなストレージを必要とする。
近年のアプローチでは、アダプタをトレーニングすることでこの欠点に対処しているが、それでも比較的多くのパラメータを必要とする。
本研究では,驚くほどシンプルで効果的なアダプタアーキテクチャであるAdapterBiasを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。