論文の概要: Unified modality separation: A vision-language framework for unsupervised domain adaptation
- arxiv url: http://arxiv.org/abs/2508.04987v1
- Date: Thu, 07 Aug 2025 02:51:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 21:11:55.653109
- Title: Unified modality separation: A vision-language framework for unsupervised domain adaptation
- Title(参考訳): 統一モダリティ分離:教師なしドメイン適応のための視覚言語フレームワーク
- Authors: Xinyao Li, Jingjing Li, Zhekai Du, Lei Zhu, Heng Tao Shen,
- Abstract要約: 教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ラベル付きソースドメインでトレーニングされたモデルが新しいラベル付きドメインを扱うことを可能にする。
本稿では,モダリティ固有成分とモダリティ不変成分の両方に対応可能な統一モダリティ分離フレームワークを提案する。
提案手法は,9倍の計算効率で最大9%の性能向上を実現している。
- 参考スコア(独自算出の注目度): 60.8391821117794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised domain adaptation (UDA) enables models trained on a labeled source domain to handle new unlabeled domains. Recently, pre-trained vision-language models (VLMs) have demonstrated promising zero-shot performance by leveraging semantic information to facilitate target tasks. By aligning vision and text embeddings, VLMs have shown notable success in bridging domain gaps. However, inherent differences naturally exist between modalities, which is known as modality gap. Our findings reveal that direct UDA with the presence of modality gap only transfers modality-invariant knowledge, leading to suboptimal target performance. To address this limitation, we propose a unified modality separation framework that accommodates both modality-specific and modality-invariant components. During training, different modality components are disentangled from VLM features then handled separately in a unified manner. At test time, modality-adaptive ensemble weights are automatically determined to maximize the synergy of different components. To evaluate instance-level modality characteristics, we design a modality discrepancy metric to categorize samples into modality-invariant, modality-specific, and uncertain ones. The modality-invariant samples are exploited to facilitate cross-modal alignment, while uncertain ones are annotated to enhance model capabilities. Building upon prompt tuning techniques, our methods achieve up to 9% performance gain with 9 times of computational efficiencies. Extensive experiments and analysis across various backbones, baselines, datasets and adaptation settings demonstrate the efficacy of our design.
- Abstract(参考訳): 教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ラベル付きソースドメインでトレーニングされたモデルが新しいラベル付きドメインを扱うことを可能にする。
近年,事前学習された視覚言語モデル (VLM) は,目的タスクの容易化に意味情報を活用することで,ゼロショット性能を実証している。
視覚とテキストの埋め込みを合わせることで、VLMはドメインのギャップを埋めることに成功した。
しかし、モダリティの間には自然に相違があり、モダリティギャップ(modality gap)と呼ばれる。
以上の結果から,モダリティギャップが存在する直接UDAはモダリティ不変の知識のみを伝達し,準最適目標性能に繋がることが明らかとなった。
この制限に対処するために、モダリティ固有成分とモダリティ不変成分の両方に対応する統一モダリティ分離フレームワークを提案する。
トレーニング中、異なるモダリティコンポーネントはVLM機能から切り離され、統一された方法で個別に処理される。
試験時には、モード適応アンサンブル重みが自動的に決定され、異なる成分のシナジーを最大化する。
インスタンスレベルのモダリティ特性を評価するために,サンプルをモダリティ不変性,モダリティ固有性,不確実性に分類するモダリティ不一致度尺度を設計する。
モダリティ不変のサンプルはクロスモーダルアライメントを促進するために利用され、不確実なサンプルはモデル能力を高めるために注釈付けされる。
提案手法は, 高速チューニング技術を用いて最大9%の性能向上を実現し, 計算効率を9倍に向上させる。
様々なバックボーン、ベースライン、データセット、適応設定に対する大規模な実験と分析は、我々の設計の有効性を示している。
関連論文リスト
- Space Rotation with Basis Transformation for Training-free Test-Time Adaptation [25.408849667998993]
テスト時間適応のための基底変換を用いた訓練不要な特徴空間回転を提案する。
クラス間の固有の区別を利用することで、元の特徴空間を再構成し、それを新しい表現にマッピングする。
本手法は,性能と効率の両面で最先端技術より優れている。
論文 参考訳(メタデータ) (2025-02-27T10:15:34Z) - Unified Language-driven Zero-shot Domain Adaptation [55.64088594551629]
Unified Language-driven Zero-shot Domain Adaptation (ULDA)は、新しいタスクセットである。
これにより、ドメインIDの知識を明示することなく、単一のモデルを多様なターゲットドメインに適応させることができる。
論文 参考訳(メタデータ) (2024-04-10T16:44:11Z) - Out-of-Distribution Detection via Deep Multi-Comprehension Ensemble [11.542472900306745]
マルチComprehension (MC) Ensemble は,OOD (Out-of-Distribution) 特徴表現を拡大するための戦略として提案されている。
OOD検出におけるMC Ensemble戦略の優れた性能を示す実験結果を得た。
これにより,提案手法がトレーニング分布外のインスタンスを検出できるモデルの性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-24T18:43:04Z) - Split to Merge: Unifying Separated Modalities for Unsupervised Domain
Adaptation [25.499205902426716]
教師なしドメイン適応のための統一モダリティ分離(UniMoS)フレームワークを導入する。
私たちは,CLIPの機能を言語関連コンポーネントと視覚関連コンポーネントに明確に分離する,スウィンブルなモダリティ分離ネットワークを構築した。
モダリティ・アンサンブル・トレーニング(MET)法は,モダリティ・アンサンブル情報の交換を促進する。
論文 参考訳(メタデータ) (2024-03-11T17:33:12Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - IDA: Informed Domain Adaptive Semantic Segmentation [51.12107564372869]
クラスレベルのセグメンテーション性能に基づいてデータを混合する自己学習フレームワークであるDomain Informed Adaptation (IDA) モデルを提案する。
IDAモデルでは、クラスレベルの性能を期待信頼スコア(ECS)によって追跡し、動的スケジュールを用いて異なる領域のデータに対する混合比を決定する。
提案手法は,GTA-Vの都市景観への適応において1.1 mIoU,SynTHIAの都市への適応において0.9 mIoUのマージンで,最先端のUDA-SS法よりも優れる。
論文 参考訳(メタデータ) (2023-03-05T18:16:34Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。