Fugu-MT 論文翻訳(概要): Split to Merge: Unifying Separated Modalities for Unsupervised Domain Adaptation

論文の概要: Split to Merge: Unifying Separated Modalities for Unsupervised Domain Adaptation

arxiv url: http://arxiv.org/abs/2403.06946v1
Date: Mon, 11 Mar 2024 17:33:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-12 17:56:22.438092
Title: Split to Merge: Unifying Separated Modalities for Unsupervised Domain Adaptation
Title（参考訳）: split to merge:unsupervised domain adaptationのための分離モダリティの統一
Authors: Xinyao Li, Yuke Li, Zhekai Du, Fengling Li, Ke Lu, Jingjing Li
Abstract要約: 教師なしドメイン適応のための統一モダリティ分離(UniMoS)フレームワークを導入する。私たちは,CLIPの機能を言語関連コンポーネントと視覚関連コンポーネントに明確に分離する,スウィンブルなモダリティ分離ネットワークを構築した。モダリティ・アンサンブル・トレーニング(MET)法は,モダリティ・アンサンブル情報の交換を促進する。
参考スコア（独自算出の注目度）: 25.499205902426716
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large vision-language models (VLMs) like CLIP have demonstrated good zero-shot learning performance in the unsupervised domain adaptation task. Yet, most transfer approaches for VLMs focus on either the language or visual branches, overlooking the nuanced interplay between both modalities. In this work, we introduce a Unified Modality Separation (UniMoS) framework for unsupervised domain adaptation. Leveraging insights from modality gap studies, we craft a nimble modality separation network that distinctly disentangles CLIP's features into language-associated and vision-associated components. Our proposed Modality-Ensemble Training (MET) method fosters the exchange of modality-agnostic information while maintaining modality-specific nuances. We align features across domains using a modality discriminator. Comprehensive evaluations on three benchmarks reveal our approach sets a new state-of-the-art with minimal computational costs. Code: https://github.com/TL-UESTC/UniMoS
Abstract（参考訳）: CLIPのような大規模視覚言語モデル(VLM)は、教師なしドメイン適応タスクにおいて優れたゼロショット学習性能を示している。しかしながら、VLMのほとんどのトランスファーアプローチは、両モード間の微妙な相互作用を見越して、言語または視覚枝に焦点を当てている。本研究では,教師なしドメイン適応のための統一モダリティ分離(UniMoS)フレームワークを提案する。モダリティギャップ研究から得られた知見を活かして,CLIPの特徴を言語関連および視覚関連コンポーネントに明確に分離する,ジンブルモダリティ分離ネットワークを構築した。提案手法は,モダリティ固有のニュアンスを維持しつつモダリティ非依存な情報の交換を促進する。我々は、モダリティ判別器を用いて、ドメイン間で特徴を整列する。 3つのベンチマークの包括的評価により,計算コストを最小に抑える新たな最先端技術が確立された。コード:https://github.com/TL-UESTC/UniMoS

関連論文リスト

Boosting Single-domain Generalized Object Detection via Vision-Language Knowledge Interaction [4.692621855184482]
Single-Domain Generalized Object Detection (S-DGOD)は、単一のソースドメイン上でオブジェクト検出をトレーニングすることを目的としている。最近のS-DGODアプローチは、事前学習された視覚言語知識を利用して、視覚領域を越えて不変な特徴学習を導く。本稿では,S-DGODタスクの一般化および識別的地域特徴をキャプチャするクロスモーダル特徴学習手法を提案する。
論文参考訳（メタデータ） (2025-04-27T02:55:54Z)
SemiDAViL: Semi-supervised Domain Adaptation with Vision-Language Guidance for Semantic Segmentation [9.311853182451289]
セマンティックセグメンテーションのための言語誘導半教師付きドメイン適応(SSDA)設定を提案する。我々は、視覚言語モデル(VLM)に固有の意味一般化機能を活用して、相乗的枠組みを確立する。提案手法は, 現代の SoTA (State-of-the-art) 手法に比較して, 大幅な性能向上を示す。
論文参考訳（メタデータ） (2025-04-08T19:14:34Z)
Robust Domain Generalization for Multi-modal Object Recognition [14.128747255526012]
マルチラベル分類において、機械学習は、トレーニングデータから異なる分布でタスクを処理する際に、ドメインの一般化の課題に直面する。視覚言語プレトレーニングの最近の進歩は、広範囲にわたる視覚言語ペアの監視を活用し、多様なドメインでの学習を可能にしている。本稿では、実際の損失を推定し、より大きな視覚言語バックボーンに対する評価を拡大し、Mixup-CLIPoodを導入することで解決策を提案する。
論文参考訳（メタデータ） (2024-08-11T17:13:21Z)
Unified Language-driven Zero-shot Domain Adaptation [55.64088594551629]
Unified Language-driven Zero-shot Domain Adaptation (ULDA)は、新しいタスクセットである。これにより、ドメインIDの知識を明示することなく、単一のモデルを多様なターゲットドメインに適応させることができる。
論文参考訳（メタデータ） (2024-04-10T16:44:11Z)
Cross-domain Multi-modal Few-shot Object Detection via Rich Text [21.36633828492347]
クロスモーダルな特徴抽出と統合は、数ショットの学習タスクで安定したパフォーマンス改善をもたらした。 MM-OD (CDMM-FSOD) のクロスドメイン数ショット一般化について検討し,メタラーニングに基づく多モード数ショット検出手法を提案する。
論文参考訳（メタデータ） (2024-03-24T15:10:22Z)
APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。 APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文参考訳（メタデータ） (2023-12-04T01:42:09Z)
USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。既存のアプローチは通常、2つの大きな制限に悩まされる。
論文参考訳（メタデータ） (2023-01-17T12:42:58Z)
Exploiting Domain Transferability for Collaborative Inter-level Domain Adaptive Object Detection [17.61278045720336]
オブジェクト検出のためのドメイン適応(DAOD)は、アノテーションなしで対象オブジェクトを検出できるため、最近注目を集めている。従来の研究は、2段階検出器の部分的なレベルから抽出した特徴を、対向訓練によって整列させることに重点を置いていた。本稿では,マルチスケール対応不確実性注意(MUA),転送可能領域ネットワーク(TRPN),動的インスタンスサンプリング(DIS)の3つのコンポーネントを用いた提案手法を提案する。
論文参考訳（メタデータ） (2022-07-20T01:50:26Z)
Multi-level Consistency Learning for Semi-supervised Domain Adaptation [85.90600060675632]
半教師付きドメイン適応(SSDA)は、完全にラベル付けされたソースドメインから学習した知識をわずかにラベル付けされたターゲットドメインに適用することを目的としている。 SSDAのための多レベル一貫性学習フレームワークを提案する。
論文参考訳（メタデータ） (2022-05-09T06:41:18Z)
Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。 SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文参考訳（メタデータ） (2021-12-12T06:11:16Z)
Domain Attention Consistency for Multi-Source Domain Adaptation [100.25573559447551]
主な設計は、伝達可能な特徴(属性)を識別することを目的とした機能チャネルアテンションモジュールである。 3つのMSDAベンチマーク実験により、DAC-Netは、それらすべてに対して、新たなパフォーマンスを実現することが示された。
論文参考訳（メタデータ） (2021-11-06T15:56:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。