論文の概要: Split to Merge: Unifying Separated Modalities for Unsupervised Domain
Adaptation
- arxiv url: http://arxiv.org/abs/2403.06946v1
- Date: Mon, 11 Mar 2024 17:33:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 17:56:22.438092
- Title: Split to Merge: Unifying Separated Modalities for Unsupervised Domain
Adaptation
- Title(参考訳): split to merge:unsupervised domain adaptationのための分離モダリティの統一
- Authors: Xinyao Li, Yuke Li, Zhekai Du, Fengling Li, Ke Lu, Jingjing Li
- Abstract要約: 教師なしドメイン適応のための統一モダリティ分離(UniMoS)フレームワークを導入する。
私たちは,CLIPの機能を言語関連コンポーネントと視覚関連コンポーネントに明確に分離する,スウィンブルなモダリティ分離ネットワークを構築した。
モダリティ・アンサンブル・トレーニング(MET)法は,モダリティ・アンサンブル情報の交換を促進する。
- 参考スコア(独自算出の注目度): 25.499205902426716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (VLMs) like CLIP have demonstrated good
zero-shot learning performance in the unsupervised domain adaptation task. Yet,
most transfer approaches for VLMs focus on either the language or visual
branches, overlooking the nuanced interplay between both modalities. In this
work, we introduce a Unified Modality Separation (UniMoS) framework for
unsupervised domain adaptation. Leveraging insights from modality gap studies,
we craft a nimble modality separation network that distinctly disentangles
CLIP's features into language-associated and vision-associated components. Our
proposed Modality-Ensemble Training (MET) method fosters the exchange of
modality-agnostic information while maintaining modality-specific nuances. We
align features across domains using a modality discriminator. Comprehensive
evaluations on three benchmarks reveal our approach sets a new state-of-the-art
with minimal computational costs. Code: https://github.com/TL-UESTC/UniMoS
- Abstract(参考訳): CLIPのような大規模視覚言語モデル(VLM)は、教師なしドメイン適応タスクにおいて優れたゼロショット学習性能を示している。
しかしながら、VLMのほとんどのトランスファーアプローチは、両モード間の微妙な相互作用を見越して、言語または視覚枝に焦点を当てている。
本研究では,教師なしドメイン適応のための統一モダリティ分離(UniMoS)フレームワークを提案する。
モダリティギャップ研究から得られた知見を活かして,CLIPの特徴を言語関連および視覚関連コンポーネントに明確に分離する,ジンブルモダリティ分離ネットワークを構築した。
提案手法は,モダリティ固有のニュアンスを維持しつつモダリティ非依存な情報の交換を促進する。
我々は、モダリティ判別器を用いて、ドメイン間で特徴を整列する。
3つのベンチマークの包括的評価により,計算コストを最小に抑える新たな最先端技術が確立された。
コード:https://github.com/TL-UESTC/UniMoS
関連論文リスト
- Robust Domain Generalization for Multi-modal Object Recognition [14.128747255526012]
マルチラベル分類において、機械学習は、トレーニングデータから異なる分布でタスクを処理する際に、ドメインの一般化の課題に直面する。
視覚言語プレトレーニングの最近の進歩は、広範囲にわたる視覚言語ペアの監視を活用し、多様なドメインでの学習を可能にしている。
本稿では、実際の損失を推定し、より大きな視覚言語バックボーンに対する評価を拡大し、Mixup-CLIPoodを導入することで解決策を提案する。
論文 参考訳(メタデータ) (2024-08-11T17:13:21Z) - Unified Language-driven Zero-shot Domain Adaptation [55.64088594551629]
Unified Language-driven Zero-shot Domain Adaptation (ULDA)は、新しいタスクセットである。
これにより、ドメインIDの知識を明示することなく、単一のモデルを多様なターゲットドメインに適応させることができる。
論文 参考訳(メタデータ) (2024-04-10T16:44:11Z) - Cross-domain Multi-modal Few-shot Object Detection via Rich Text [21.36633828492347]
クロスモーダルな特徴抽出と統合は、数ショットの学習タスクで安定したパフォーマンス改善をもたらした。
MM-OD (CDMM-FSOD) のクロスドメイン数ショット一般化について検討し,メタラーニングに基づく多モード数ショット検出手法を提案する。
論文 参考訳(メタデータ) (2024-03-24T15:10:22Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Exploiting Domain Transferability for Collaborative Inter-level Domain
Adaptive Object Detection [17.61278045720336]
オブジェクト検出のためのドメイン適応(DAOD)は、アノテーションなしで対象オブジェクトを検出できるため、最近注目を集めている。
従来の研究は、2段階検出器の部分的なレベルから抽出した特徴を、対向訓練によって整列させることに重点を置いていた。
本稿では,マルチスケール対応不確実性注意(MUA),転送可能領域ネットワーク(TRPN),動的インスタンスサンプリング(DIS)の3つのコンポーネントを用いた提案手法を提案する。
論文 参考訳(メタデータ) (2022-07-20T01:50:26Z) - Multi-level Consistency Learning for Semi-supervised Domain Adaptation [85.90600060675632]
半教師付きドメイン適応(SSDA)は、完全にラベル付けされたソースドメインから学習した知識をわずかにラベル付けされたターゲットドメインに適用することを目的としている。
SSDAのための多レベル一貫性学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-09T06:41:18Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Domain Attention Consistency for Multi-Source Domain Adaptation [100.25573559447551]
主な設計は、伝達可能な特徴(属性)を識別することを目的とした機能チャネルアテンションモジュールである。
3つのMSDAベンチマーク実験により、DAC-Netは、それらすべてに対して、新たなパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2021-11-06T15:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。