論文の概要: Split to Merge: Unifying Separated Modalities for Unsupervised Domain
Adaptation
- arxiv url: http://arxiv.org/abs/2403.06946v1
- Date: Mon, 11 Mar 2024 17:33:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 17:56:22.438092
- Title: Split to Merge: Unifying Separated Modalities for Unsupervised Domain
Adaptation
- Title(参考訳): split to merge:unsupervised domain adaptationのための分離モダリティの統一
- Authors: Xinyao Li, Yuke Li, Zhekai Du, Fengling Li, Ke Lu, Jingjing Li
- Abstract要約: 教師なしドメイン適応のための統一モダリティ分離(UniMoS)フレームワークを導入する。
私たちは,CLIPの機能を言語関連コンポーネントと視覚関連コンポーネントに明確に分離する,スウィンブルなモダリティ分離ネットワークを構築した。
モダリティ・アンサンブル・トレーニング(MET)法は,モダリティ・アンサンブル情報の交換を促進する。
- 参考スコア(独自算出の注目度): 25.499205902426716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (VLMs) like CLIP have demonstrated good
zero-shot learning performance in the unsupervised domain adaptation task. Yet,
most transfer approaches for VLMs focus on either the language or visual
branches, overlooking the nuanced interplay between both modalities. In this
work, we introduce a Unified Modality Separation (UniMoS) framework for
unsupervised domain adaptation. Leveraging insights from modality gap studies,
we craft a nimble modality separation network that distinctly disentangles
CLIP's features into language-associated and vision-associated components. Our
proposed Modality-Ensemble Training (MET) method fosters the exchange of
modality-agnostic information while maintaining modality-specific nuances. We
align features across domains using a modality discriminator. Comprehensive
evaluations on three benchmarks reveal our approach sets a new state-of-the-art
with minimal computational costs. Code: https://github.com/TL-UESTC/UniMoS
- Abstract(参考訳): CLIPのような大規模視覚言語モデル(VLM)は、教師なしドメイン適応タスクにおいて優れたゼロショット学習性能を示している。
しかしながら、VLMのほとんどのトランスファーアプローチは、両モード間の微妙な相互作用を見越して、言語または視覚枝に焦点を当てている。
本研究では,教師なしドメイン適応のための統一モダリティ分離(UniMoS)フレームワークを提案する。
モダリティギャップ研究から得られた知見を活かして,CLIPの特徴を言語関連および視覚関連コンポーネントに明確に分離する,ジンブルモダリティ分離ネットワークを構築した。
提案手法は,モダリティ固有のニュアンスを維持しつつモダリティ非依存な情報の交換を促進する。
我々は、モダリティ判別器を用いて、ドメイン間で特徴を整列する。
3つのベンチマークの包括的評価により,計算コストを最小に抑える新たな最先端技術が確立された。
コード:https://github.com/TL-UESTC/UniMoS
関連論文リスト
- APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Adapt in Contexts: Retrieval-Augmented Domain Adaptation via In-Context
Learning [48.22913073217633]
大規模言語モデル(LLM)は、インコンテキスト学習(in-context learning)として知られる少数の推論でその能力を示した。
本稿では,UDA問題を文脈内学習環境下で研究し,ソースドメインからターゲットドメインへの言語モデルの適用を,ターゲットラベルを使わずに行う。
我々は、異なるLMアーキテクチャを考慮し、異なるプロンプトとトレーニング戦略を考案し、言語モデリングを通してターゲット分布を学習する。
論文 参考訳(メタデータ) (2023-11-20T06:06:20Z) - One-for-All: Towards Universal Domain Translation with a Single StyleGAN [86.33216867136639]
視覚的に異なる領域間の表現を変換するための新しい翻訳モデルUniTranslatorを提案する。
提案したUniTranslatorは汎用的で、スタイルミキシング、スタイリゼーション、翻訳など様々なタスクを実行できる。
UniTranslatorは、既存の汎用モデルの性能を超越し、代表タスクの特殊モデルに対してよく機能する。
論文 参考訳(メタデータ) (2023-10-22T08:02:55Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Exploiting Domain Transferability for Collaborative Inter-level Domain
Adaptive Object Detection [17.61278045720336]
オブジェクト検出のためのドメイン適応(DAOD)は、アノテーションなしで対象オブジェクトを検出できるため、最近注目を集めている。
従来の研究は、2段階検出器の部分的なレベルから抽出した特徴を、対向訓練によって整列させることに重点を置いていた。
本稿では,マルチスケール対応不確実性注意(MUA),転送可能領域ネットワーク(TRPN),動的インスタンスサンプリング(DIS)の3つのコンポーネントを用いた提案手法を提案する。
論文 参考訳(メタデータ) (2022-07-20T01:50:26Z) - Multi-level Consistency Learning for Semi-supervised Domain Adaptation [85.90600060675632]
半教師付きドメイン適応(SSDA)は、完全にラベル付けされたソースドメインから学習した知識をわずかにラベル付けされたターゲットドメインに適用することを目的としている。
SSDAのための多レベル一貫性学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-09T06:41:18Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Domain Attention Consistency for Multi-Source Domain Adaptation [100.25573559447551]
主な設計は、伝達可能な特徴(属性)を識別することを目的とした機能チャネルアテンションモジュールである。
3つのMSDAベンチマーク実験により、DAC-Netは、それらすべてに対して、新たなパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2021-11-06T15:56:53Z) - Transfer Learning for Context-Aware Spoken Language Understanding [3.763434958496263]
音声言語理解(SLU)はタスク指向対話システムの主要な構成要素である。
これまでの研究では、コンテキスト情報の導入により、マルチターン対話におけるSLUの性能が大幅に向上することが示されている。
本稿では, 文脈適応型言語変換器(CELT)モデルを提案する。
論文 参考訳(メタデータ) (2020-03-03T02:56:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。