論文の概要: Universal Domain Adaptation from Foundation Models: A Baseline Study
- arxiv url: http://arxiv.org/abs/2305.11092v2
- Date: Fri, 3 Nov 2023 03:34:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 18:08:15.352606
- Title: Universal Domain Adaptation from Foundation Models: A Baseline Study
- Title(参考訳): 基礎モデルからのユニバーサルドメイン適応:基礎研究
- Authors: Bin Deng and Kui Jia
- Abstract要約: 基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
- 参考スコア(独自算出の注目度): 58.51162198585434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models (e.g., CLIP or DINOv2) have shown their impressive learning
and transfer capabilities in a wide range of visual tasks, by training on a
large corpus of data and adapting to specific downstream tasks. It is, however,
interesting that foundation models have not been fully explored for universal
domain adaptation (UniDA), which is to learn models using labeled data in a
source domain and unlabeled data in a target one, such that the learned models
can successfully adapt to the target data. In this paper, we make comprehensive
empirical studies of state-of-the-art UniDA methods using foundation models. We
first observe that, unlike fine-tuning from ImageNet pre-trained models, as
previous methods do, fine-tuning from foundation models yields significantly
poorer results, sometimes even worse than training from scratch. While freezing
the backbones, we demonstrate that although the foundation models greatly
improve the performance of the baseline method that trains the models on the
source data alone, existing UniDA methods generally fail to improve over the
baseline. This suggests that new research efforts are very necessary for UniDA
using foundation models. Based on these findings, we introduce \textit{CLIP
distillation}, a parameter-free method specifically designed to distill target
knowledge from CLIP models. The core of our \textit{CLIP distillation} lies in
a self-calibration technique for automatic temperature scaling, a feature that
significantly enhances the baseline's out-class detection capability. Although
simple, our method outperforms previous approaches in most benchmark tasks,
excelling in evaluation metrics including H-score/H$^3$-score and the newly
proposed universal classification rate (UCR) metric. We hope that our
investigation and the proposed simple framework can serve as a strong baseline
to facilitate future studies in this field.
- Abstract(参考訳): ファンデーションモデル(例えばCLIPやDINOv2)は、大規模なデータコーパスのトレーニングと特定の下流タスクへの適応によって、広範囲の視覚タスクにおいて、彼らの印象的な学習と伝達能力を示している。
しかし、UniDA(UniDA)は、ソースドメイン内のラベル付きデータとターゲットドメイン内のラベルなしデータを用いてモデルを学習し、学習したモデルが対象データに適応できるように、基礎モデルが完全には研究されていないことが興味深い。
本稿では,基礎モデルを用いた最先端UniDA手法の総合的な実証的研究を行う。
まず、imagenetの事前学習モデルの微調整とは異なり、基礎モデルの微調整は、スクラッチからトレーニングするよりも非常に悪い結果をもたらす。
バックボーンを凍結しながら、基礎モデルがソースデータだけでモデルをトレーニングするベースラインメソッドのパフォーマンスを大幅に改善するが、既存のunidaメソッドは一般的にベースラインよりも改善されないことを実証する。
これは、UniDAが基礎モデルを使用するためには、新しい研究努力が必要であることを示唆している。
これらの知見に基づき,CLIPモデルから対象知識を抽出するパラメータフリーな手法であるtextit{CLIP 蒸留法を導入する。
我々の‘textit{CLIP蒸留’の核心は、ベースラインのクラス外検出能力を著しく向上させる、自動温度スケーリングのための自己校正技術にある。
h-score/h$^3$-score や新たに提案された universal classification rate (ucr) メトリックなどの評価基準が優れている。
我々は,我々の調査と提案フレームワークが,この分野の将来研究を促進するための強固なベースラインとなることを願っている。
関連論文リスト
- High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。
具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。
2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-10T08:04:11Z) - Bayesian Exploration of Pre-trained Models for Low-shot Image Classification [14.211305168954594]
本研究はガウス過程に基づくシンプルで効果的な確率的モデルアンサンブルフレームワークを提案する。
平均関数をCLIPとカーネル関数で指定することで,事前知識の統合を実現する。
提案手法は,予測性能に関する競争アンサンブルベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-03-30T10:25:28Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - How to train your draGAN: A task oriented solution to imbalanced
classification [15.893327571516016]
本稿では,新しいアーキテクチャであるdraGANを用いた,ユニークでパフォーマンスを重視したデータ生成戦略を提案する。
サンプルは、実際のデータと類似性ではなく、分類モデルの性能を最適化する目的で生成される。
経験的に、draGANの優位性を示すと同時に、いくつかの欠点も強調する。
論文 参考訳(メタデータ) (2022-11-18T07:37:34Z) - DATa: Domain Adaptation-Aided Deep Table Detection Using Visual-Lexical
Representations [2.542864854772221]
DATaと呼ばれる新しいドメイン適応型ディープテーブル検出手法を提案する。
信頼できるラベルがほとんどない特定のターゲットドメインで十分なパフォーマンスを保証します。
実験の結果,DATaは対象領域における視覚的表現のみを利用する競合手法よりもかなり優れていた。
論文 参考訳(メタデータ) (2022-11-12T12:14:16Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。