論文の概要: Multi-Modal Guided Multi-Source Domain Adaptation for Object Detection
- arxiv url: http://arxiv.org/abs/2605.13140v1
- Date: Wed, 13 May 2026 08:06:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.892715
- Title: Multi-Modal Guided Multi-Source Domain Adaptation for Object Detection
- Title(参考訳): オブジェクト検出のためのマルチモーダルガイド型マルチソースドメイン適応
- Authors: Sangin Lee, Seokjun Kwon, Jeongmin Shin, Namil Kim, Yukyung Choi,
- Abstract要約: 一般的なオブジェクト検出(OD)は、トレーニング分布とは異なるターゲットドメイン内のオブジェクトを検出するのに苦労する。
本稿では,(1)深度誘導型ローカライゼーションと(2)マルチモーダル誘導型プロンプト学習からなるMS-DeProを提案する。
MS-DeProはMSDAベンチマークで最先端のパフォーマンスを達成し、我々のコントリビューションの有効性を包括的に検証した。
- 参考スコア(独自算出の注目度): 2.006271528279323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General object detection (OD) struggles to detect objects in the target domain that differ from the training distribution. To address this, recent studies demonstrate that training from multiple source domains and explicitly processing them separately for multi-source domain adaptation (MSDA) outperforms blending them for unsupervised domain adaptation (UDA). However, existing MSDA methods learn domain-agnostic features from domain-specific RGB images while preserving domain-specific information from the domain-agnostic feature map. To address this, we propose MS-DePro: Multi-Source Detector with Depth and Prompt, composed of (1) depth-guided localization and (2) multi-modal guided prompt learning. We leverage domain-agnostic input modalities, namely depth maps and text, to encode domain-agnostic characteristics. Specifically, we utilize depth maps to generate domain-agnostic region proposals for localization and integrate multi-modal features to align learnable text embeddings for classification. MS-DePro achieves state-of-the-art performance on MSDA benchmarks, and comprehensive ablations demonstrate the effectiveness of our contributions. Our code is available on https://github.com/sejong-rcv/Multi-Modal-Guided-Multi-Source-Domain-Adaptation-for-Object-Detection .
- Abstract(参考訳): 一般的なオブジェクト検出(OD)は、トレーニング分布とは異なるターゲットドメイン内のオブジェクトを検出するのに苦労する。
これを解決するために、最近の研究では、複数のソースドメインからのトレーニングを行い、マルチソースドメイン適応(MSDA)に対して個別に処理することが、教師なしドメイン適応(UDA)のためにそれらをブレンドすることより優れていることが示されている。
しかし,既存のMSDA手法はドメイン固有のRGB画像からドメインに依存しない特徴を学習し,ドメインに依存しない特徴マップからドメイン固有の情報を保存する。
そこで我々は,(1)深度誘導型ローカライゼーションと(2)マルチモーダル誘導型プロンプト学習からなるMS-DePro: Multi-Source Detector with Depth and Promptを提案する。
ドメインに依存しない入力モダリティ、すなわち深度マップとテキストを利用して、ドメインに依存しない特性を符号化する。
具体的には、深度マップを用いて、ローカライズのためのドメインに依存しない領域の提案を生成し、マルチモーダル機能を統合して、学習可能なテキスト埋め込みを分類するために調整する。
MS-DeProはMSDAベンチマークで最先端のパフォーマンスを達成し、我々の貢献の有効性を包括的に検証した。
私たちのコードはhttps://github.com/sejong-rcv/Multi-Modal-Guided-Multi-Source-Domain-Adaptation-for-Object-Detection で利用可能です。
関連論文リスト
- Multi-Source Domain Adaptation for Object Detection with Prototype-based Mean-teacher [11.616494893839757]
視覚オブジェクト検出器を操作対象領域に適応させることは難しい課題であり、一般には教師なし領域適応(UDA)法を用いて達成される。
近年の研究では、ラベル付きデータセットが複数のソースドメインから来ると、それらを別々のドメインとして扱うことで、これらのソースドメインをブレンドしてUDAを実行するよりも正確性と堅牢性を向上させることが示されている。
本稿では,ドメイン特化情報の代わりにクラスプロトタイプを用いてドメイン特化情報をエンコードする,プロトタイプベース平均教師(PMT)と呼ばれる新しいMSDA手法を提案する。
論文 参考訳(メタデータ) (2023-09-26T14:08:03Z) - Exploring Sparse Visual Prompt for Domain Adaptive Dense Prediction [22.868597464136787]
本稿では,画像レベルのプロンプトに最小限のトレーニング可能なパラメータを格納し,入力のより空間的な情報を予約する,Sparse Visual Domain Prompts (SVDP) アプローチを提案する。
提案手法は, セマンティックセグメンテーションと深度推定の両タスクにおいて, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-17T06:26:55Z) - Multi-Scale Multi-Target Domain Adaptation for Angle Closure
Classification [50.658613573816254]
角度閉包分類のためのM2DAN(Multi-scale Multi-target Domain Adversarial Network)を提案する。
異なるスケールでのこれらのドメイン不変性に基づいて、ソースドメインで訓練されたディープモデルは、複数のターゲットドメインの角度クロージャを分類することができる。
論文 参考訳(メタデータ) (2022-08-25T15:27:55Z) - Domain Invariant Masked Autoencoders for Self-supervised Learning from
Multi-domains [73.54897096088149]
マルチドメインからの自己教師型学習のためのドメイン不変のMasked AutoEncoder (DiMAE)を提案する。
中心となる考え方は、入力画像を異なるドメインからのスタイルノイズで拡張し、拡張イメージの埋め込みからイメージを再構築することである。
PACSとDomainNetの実験は、最近の最先端の手法と比較して、DiMAEがかなりの利益を得ていることを示している。
論文 参考訳(メタデータ) (2022-05-10T09:49:40Z) - Unsupervised Multi-Source Domain Adaptation for Person Re-Identification [39.817734080890695]
unsupervised domain adaptation (uda) method for person re-idification (re-id) ラベル付きソースデータからラベル付きターゲットデータへの再id知識の転送を目的としている。
マルチソースの概念を UDA person re-ID フィールドに導入し、トレーニング中に複数のソースデータセットを使用する。
提案手法は,最先端のuda person re-idメソッドを高いマージンで上回り,後処理手法を使わずに教師付きアプローチに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2021-04-27T03:33:35Z) - Domain Conditioned Adaptation Network [90.63261870610211]
本稿では,ドメイン条件付きチャネルアテンション機構を用いて,異なる畳み込みチャネルを励起するドメイン条件適応ネットワーク(DCAN)を提案する。
これは、ディープDAネットワークのドメインワイドな畳み込みチャネルアクティベーションを探求する最初の試みである。
論文 参考訳(メタデータ) (2020-05-14T04:23:24Z) - Mutual Learning Network for Multi-Source Domain Adaptation [73.25974539191553]
ML-MSDA(Multial Learning Network for Multiple Source Domain Adaptation)を提案する。
相互学習の枠組みのもと,提案手法は対象ドメインと各ソースドメインをペアリングし,条件付き対向ドメイン適応ネットワークを分岐ネットワークとして訓練する。
提案手法は, 比較手法より優れ, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-03-29T04:31:43Z) - MADAN: Multi-source Adversarial Domain Aggregation Network for Domain
Adaptation [58.38749495295393]
ドメイン適応は、あるラベル付きソースドメインと、わずかにラベル付けまたはラベル付けされていないターゲットドメインの間のドメインシフトをブリッジするために、転送可能なモデルを学ぶことを目的としています。
近年のマルチソース領域適応法(MDA)では,ソースとターゲット間の画素レベルのアライメントは考慮されていない。
これらの課題に対処するための新しいMDAフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T21:22:00Z) - Multi-source Domain Adaptation for Visual Sentiment Classification [92.53780541232773]
マルチソース・ドメイン適応(MDA)手法をMSGAN(Multi-source Sentiment Generative Adversarial Network)と呼ぶ。
複数のソースドメインからのデータを扱うために、MSGANはソースドメインとターゲットドメインの両方のデータが同じ分布を共有する、統一された感情潜在空間を見つけることを学ぶ。
4つのベンチマークデータセットで実施された大規模な実験により、MSGANは視覚的感情分類のための最先端のMDAアプローチよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2020-01-12T08:37:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。