論文の概要: Domain Generalization using Pretrained Models without Fine-tuning
- arxiv url: http://arxiv.org/abs/2203.04600v1
- Date: Wed, 9 Mar 2022 09:33:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 14:22:36.121449
- Title: Domain Generalization using Pretrained Models without Fine-tuning
- Title(参考訳): 微調整のない事前学習モデルを用いた領域一般化
- Authors: Ziyue Li, Kan Ren, Xinyang Jiang, Bo Li, Haipeng Zhang, Dongsheng Li
- Abstract要約: 微調整事前訓練モデルは、ドメイン一般化(DG)タスクにおいて一般的なプラクティスである。
ドメイン一般化のための特別アンサンブル学習(SEDGE)という,様々な事前学習モデルを活用するための新しいドメイン一般化パラダイムを提案する。
SEDGEは、DGタスクの最先端メソッドを含む強力なベースラインと比較して、大幅なパフォーマンス向上を実現している。
- 参考スコア(独自算出の注目度): 25.489714555859944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning pretrained models is a common practice in domain generalization
(DG) tasks. However, fine-tuning is usually computationally expensive due to
the ever-growing size of pretrained models. More importantly, it may cause
over-fitting on source domain and compromise their generalization ability as
shown in recent works. Generally, pretrained models possess some level of
generalization ability and can achieve decent performance regarding specific
domains and samples. However, the generalization performance of pretrained
models could vary significantly over different test domains even samples, which
raises challenges for us to best leverage pretrained models in DG tasks. In
this paper, we propose a novel domain generalization paradigm to better
leverage various pretrained models, named specialized ensemble learning for
domain generalization (SEDGE). It first trains a linear label space adapter
upon fixed pretrained models, which transforms the outputs of the pretrained
model to the label space of the target domain. Then, an ensemble network aware
of model specialty is proposed to dynamically dispatch proper pretrained models
to predict each test sample. Experimental studies on several benchmarks show
that SEDGE achieves significant performance improvements comparing to strong
baselines including state-of-the-art method in DG tasks and reduces the
trainable parameters by ~99% and the training time by ~99.5%.
- Abstract(参考訳): 微調整事前訓練モデルはドメイン一般化(DG)タスクにおいて一般的なプラクティスである。
しかし、微調整は通常、事前訓練されたモデルのサイズが永遠に大きくなるため、計算コストがかかる。
さらに重要なのは、ソースドメインに過度に適合し、最近の研究で示されているように、一般化能力を損なう可能性があることだ。
一般に、事前訓練されたモデルはある程度の一般化能力を持ち、特定の領域やサンプルについて十分な性能が得られる。
しかしながら、トレーニング済みモデルの一般化性能は、サンプルであってもテストドメインによって大きく異なる可能性があるため、dgタスクでトレーニング済みモデルを最大限に活用することが課題となる。
本稿では,事前学習モデルであるsedge(specialized ensemble learning for domain generalization)をより活用するための新しいドメイン一般化パラダイムを提案する。
まず、固定事前訓練されたモデルの線形ラベル空間アダプタを訓練し、事前訓練されたモデルの出力を対象領域のラベル空間に変換する。
次に,モデル特殊性を認識したアンサンブルネットワークを提案し,各テストサンプルを動的に予測する。
いくつかのベンチマークに関する実験的研究により、SEDGEはDGタスクの最先端メソッドを含む強力なベースラインと比較して大幅な性能向上を実現し、トレーニング可能なパラメータを約99%削減し、トレーニング時間を約99.5%削減した。
関連論文リスト
- Domain Generalization Guided by Large-Scale Pre-Trained Priors [24.74398777539288]
ドメイン一般化(DG)は、限られたソースドメインからモデルをトレーニングすることを目的としており、未知のターゲットドメインに一般化することができる。
大規模事前訓練型ファインチューン(FT-LP)について紹介する。
FT-LPは、事前訓練されたモデルをDG微調整プロセスに前もって組み込んで、各最適化ステップで事前訓練されたモデルを参照することを保証する。
論文 参考訳(メタデータ) (2024-06-09T03:32:32Z) - LEVI: Generalizable Fine-tuning via Layer-wise Ensemble of Different Views [28.081794908107604]
ファインチューニングは、新しい下流タスクで事前訓練された基礎モデルのパワーを活用するために使用される。
近年の研究では、微調整されたモデルから目に見えない分布への一般化の課題が観察されている。
そこで本研究では,タスク固有モデルを用いて,事前学習したモデルを階層的に適応的に組み立てる,一般化可能なファインチューニング手法LEVIを提案する。
論文 参考訳(メタデータ) (2024-02-07T08:16:40Z) - Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial Robustness [52.9493817508055]
我々は,モデルがゼロショットの逆方向のロバスト性を高めるために,事前訓練されたモデル誘導逆方向の微調整(PMG-AFT)を提案する。
私たちのアプローチは、平均8.72%のクリーンな精度を継続的に改善します。
論文 参考訳(メタデータ) (2024-01-09T04:33:03Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - An Empirical Study of Pre-trained Model Selection for Out-of-Distribution Generalization and Calibration [11.102950630209879]
アウト・オブ・ディストリビューション(OOD)の一般化タスクでは、微調整された事前学習モデルが一般的な戦略となっている。
本研究では,事前学習モデルサイズ,事前学習データセットサイズ,トレーニング戦略が一般化と不確実性校正にどのように影響するかを検討した。
論文 参考訳(メタデータ) (2023-07-17T01:27:10Z) - Universal Semi-supervised Model Adaptation via Collaborative Consistency
Training [92.52892510093037]
我々は、Universal Semi-supervised Model Adaptation (USMA)と呼ばれる現実的で挑戦的なドメイン適応問題を導入する。
本稿では,2つのモデル間の予測整合性を規則化する協調的整合性トレーニングフレームワークを提案する。
実験により,いくつかのベンチマークデータセットにおける本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-07-07T08:19:40Z) - Gradient Estimation for Unseen Domain Risk Minimization with Pre-Trained
Models [6.3671178249601805]
大規模事前学習モデルは、その一般化力を活用することにより、領域の一般化を促進することができる。
これらの事前訓練されたモデルは、未訓練の目標と目標のタスクの相違により、まだ目標とするタスク固有の知識を欠いている。
本研究では、観測不能な勾配を推定し、目に見えない領域の潜在的なリスクを低減する新しい領域一般化法を提案する。
論文 参考訳(メタデータ) (2023-02-03T02:12:09Z) - SimSCOOD: Systematic Analysis of Out-of-Distribution Generalization in
Fine-tuned Source Code Models [58.78043959556283]
本研究は,Low-Rank Adaptation (LoRA)ファインチューニング手法を含む,異なる微調整手法によるモデルの挙動について検討する。
解析の結果、LoRAファインチューニングは様々なシナリオにおけるフルファインチューニングよりも、OODの一般化性能が大幅に向上していることが判明した。
論文 参考訳(メタデータ) (2022-10-10T16:07:24Z) - Learning to Generalize across Domains on Single Test Samples [126.9447368941314]
単体テストサンプルでドメインをまたいで一般化することを学ぶ。
変分ベイズ推論問題として単検体への適応を定式化する。
我々のモデルは、ドメインの一般化のための複数のベンチマークにおいて、最先端のメソッドよりも少なくとも同等で、より優れたパフォーマンスを達成します。
論文 参考訳(メタデータ) (2022-02-16T13:21:04Z) - Adapt-and-Distill: Developing Small, Fast and Effective Pretrained
Language Models for Domains [45.07506437436464]
本稿では、特定のドメインに対して、小型で高速かつ効果的に事前訓練されたモデルを開発するための一般的なアプローチを提案する。
これは、既成の一般訓練モデルに適応し、ターゲットドメインでタスク非依存の知識蒸留を行うことによって達成される。
論文 参考訳(メタデータ) (2021-06-25T07:37:05Z) - Improving QA Generalization by Concurrent Modeling of Multiple Biases [61.597362592536896]
既存のNLPデータセットには、モデルが容易に活用できる様々なバイアスが含まれており、対応する評価セット上で高いパフォーマンスを達成することができる。
本稿では、トレーニングデータにおける複数のバイアスの同時モデリングにより、ドメイン内およびドメイン外両方のデータセットのパフォーマンスを改善するための一般的なフレームワークを提案する。
我々は,様々な領域の学習データと異なる強度の複数のバイアスを持つ抽出的質問応答の枠組みを広く評価した。
論文 参考訳(メタデータ) (2020-10-07T11:18:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。