論文の概要: Source-Free Domain Adaptation with Frozen Multimodal Foundation Model
- arxiv url: http://arxiv.org/abs/2311.16510v3
- Date: Wed, 13 Mar 2024 05:11:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 10:59:02.842526
- Title: Source-Free Domain Adaptation with Frozen Multimodal Foundation Model
- Title(参考訳): 凍結型マルチモーダルファンデーションモデルによるソースフリードメイン適応
- Authors: Song Tang, Wenxin Su, Mao Ye, and Xiatian Zhu
- Abstract要約: Source-Free Domain Adaptation (SFDA)は、ターゲットドメインにソースモデルを適用することを目的としている。
ヘテロジニアス知識を生かしながら、リッチな市販の視覚言語(ViL)マルチモーダルモデルの可能性を探る。
本稿では,新しいDIFOアポローチモデルを提案する。
- 参考スコア(独自算出の注目度): 42.19262809313472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Source-Free Domain Adaptation (SFDA) aims to adapt a source model for a
target domain, with only access to unlabeled target training data and the
source model pre-trained on a supervised source domain. Relying on pseudo
labeling and/or auxiliary supervision, conventional methods are inevitably
error-prone. To mitigate this limitation, in this work we for the first time
explore the potentials of off-the-shelf vision-language (ViL) multimodal models
(e.g.,CLIP) with rich whilst heterogeneous knowledge. We find that directly
applying the ViL model to the target domain in a zero-shot fashion is
unsatisfactory, as it is not specialized for this particular task but largely
generic. To make it task specific, we propose a novel Distilling multimodal
Foundation model(DIFO)approach. Specifically, DIFO alternates between two steps
during adaptation: (i) Customizing the ViL model by maximizing the mutual
information with the target model in a prompt learning manner, (ii) Distilling
the knowledge of this customized ViL model to the target model. For more
fine-grained and reliable distillation, we further introduce two effective
regularization terms, namely most-likely category encouragement and predictive
consistency. Extensive experiments show that DIFO significantly outperforms the
state-of-the-art alternatives. Code is here
- Abstract(参考訳): Source-Free Domain Adaptation (SFDA)は、未ラベルのターゲットトレーニングデータと教師付きソースドメインで事前トレーニングされたソースモデルのみにアクセスして、ターゲットドメインにソースモデルを適用することを目的としている。
疑似ラベリングおよび/または補助的な監督に基づく従来の手法は、必然的にエラーを起こしやすい。
この制限を緩和するために、この研究では、不均一な知識を伴い、リッチで、市販のヴィジュアル言語(ViL)マルチモーダルモデル(例えば、CLIP)のポテンシャルを初めて探求する。
ゼロショット方式でターゲット領域に直接ViLモデルを適用することは、この特定のタスクに特化せず、概ね汎用的であるため、不満足である。
タスクを具体化するために,新しいDIFOアポローチモデルを提案する。
具体的には、DIFOは順応中に2つのステップを交互に切り替える。
一 ターゲットモデルとの相互情報を素早い学習方法で最大化することにより、ViLモデルをカスタマイズすること。
(II)このカスタマイズされたViLモデルの知識をターゲットモデルに拡張する。
より微細で信頼性の高い蒸留には、さらに2つの効果的な正則化項、すなわち最も類似したカテゴリーの奨励と予測整合を導入する。
大規模な実験により、DIFOは最先端の代替品よりも著しく優れていることが示された。
コードはここです
関連論文リスト
- Vision-Language-Action Model and Diffusion Policy Switching Enables Dexterous Control of an Anthropomorphic Hand [2.7036595757881323]
微調整された視覚・言語・行動モデルと拡散モデルの相対的利点を組み合わせたハイブリッド制御法を提案する。
VLAモデルのみを使用する場合と比較して,このモデル切替手法は80%以上の成功率を示す。
論文 参考訳(メタデータ) (2024-10-17T20:49:45Z) - The Unreasonable Effectiveness of Large Language-Vision Models for
Source-free Video Domain Adaptation [56.61543110071199]
Source-Free Video Unsupervised Domain Adaptation (SFVUDA)タスクは、ラベル付きソースデータセットでトレーニングされたアクション認識モデルを、ラベル付きターゲットデータセットに適応させることによって構成される。
従来のアプローチでは、ターゲットデータ自体から派生した自己スーパービジョンを活用してSFVUDAに対処しようと試みてきた。
我々は、LLVMがドメインシフトに対して驚くほど堅牢になる前に、リッチな世界を含むという理論によって、LLVM(Large Language-Vision Models)から"web-supervision"を利用するアプローチを取る。
論文 参考訳(メタデータ) (2023-08-17T18:12:05Z) - Black-box Source-free Domain Adaptation via Two-stage Knowledge
Distillation [8.224874938178633]
ソースのないドメイン適応は、事前訓練されたソースモデルとターゲットデータのみを使用して、ディープニューラルネットワークを適用することを目的としている。
ソースモデルにアクセスするには ソースデータを漏洩する可能性がある 患者のプライバシが明らかになる
ブラックボックスのソースフリーなドメイン適応では、ソースモデルとターゲットデータの出力のみが利用可能である。
論文 参考訳(メタデータ) (2023-05-13T10:00:24Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - Confidence Attention and Generalization Enhanced Distillation for
Continuous Video Domain Adaptation [62.458968086881555]
連続ビデオドメイン適応(CVDA、Continuous Video Domain Adaptation)は、ソースモデルが個々の変更対象ドメインに適応する必要があるシナリオである。
CVDAの課題に対処するため,遺伝子組み換え型自己知識解離(CART)を用いた信頼性保証ネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-18T16:40:10Z) - Distill and Fine-tune: Effective Adaptation from a Black-box Source
Model [138.12678159620248]
Unsupervised Domain Adapt (UDA) は、既存のラベル付きデータセット (source) の知識を新しいラベル付きデータセット (target) に転送することを目的としています。
Distill and Fine-tune (Dis-tune) という新しい二段階適応フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-04T05:29:05Z) - Do We Really Need to Access the Source Data? Source Hypothesis Transfer
for Unsupervised Domain Adaptation [102.67010690592011]
Unsupervised adaptUDA (UDA) は、ラベル付きソースデータセットから学んだ知識を活用して、新しいラベル付きドメインで同様のタスクを解決することを目的としている。
従来のUDAメソッドは、モデルに適応するためには、通常、ソースデータにアクセスする必要がある。
この作業は、訓練済みのソースモデルのみが利用できる実践的な環境に取り組み、ソースデータなしでそのようなモデルを効果的に活用してUDA問題を解決する方法に取り組みます。
論文 参考訳(メタデータ) (2020-02-20T03:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。