論文の概要: Towards Single-Source Domain Generalized Object Detection via Causal Visual Prompts
- arxiv url: http://arxiv.org/abs/2510.19487v1
- Date: Wed, 22 Oct 2025 11:24:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.739495
- Title: Towards Single-Source Domain Generalized Object Detection via Causal Visual Prompts
- Title(参考訳): 因果的視覚刺激による単一ソース領域一般化物体検出に向けて
- Authors: Chen Li, Huiying Xu, Changxin Gao, Zeyu Wang, Yun Liu, Xinzhong Zhu,
- Abstract要約: 単一ソースのドメイン一般化オブジェクト検出はコンピュータビジョンにおける最先端の研究トピックである。
Causal Visual Prompts 法は、視覚的プロンプトと横断的アテンションを統合することで、刺激的な特徴からバイアスを緩和する。
Causalは15.9-31.4%のアップで最先端の性能を実現している。
- 参考スコア(独自算出の注目度): 37.886574666175065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single-source Domain Generalized Object Detection (SDGOD), as a cutting-edge research topic in computer vision, aims to enhance model generalization capability in unseen target domains through single-source domain training. Current mainstream approaches attempt to mitigate domain discrepancies via data augmentation techniques. However, due to domain shift and limited domain-specific knowledge, models tend to fall into the pitfall of spurious correlations. This manifests as the model's over-reliance on simplistic classification features (e.g., color) rather than essential domain-invariant representations like object contours. To address this critical challenge, we propose the Cauvis (Causal Visual Prompts) method. First, we introduce a Cross-Attention Prompts module that mitigates bias from spurious features by integrating visual prompts with cross-attention. To address the inadequate domain knowledge coverage and spurious feature entanglement in visual prompts for single-domain generalization, we propose a dual-branch adapter that disentangles causal-spurious features while achieving domain adaptation via high-frequency feature extraction. Cauvis achieves state-of-the-art performance with 15.9-31.4% gains over existing domain generalization methods on SDGOD datasets, while exhibiting significant robustness advantages in complex interference environments.
- Abstract(参考訳): コンピュータビジョンにおける最先端の研究トピックである単一ソースドメイン一般化オブジェクト検出(SDGOD)は、単一ソースドメイントレーニングを通じて、未確認のターゲットドメインにおけるモデル一般化能力を向上することを目的としている。
現在の主流のアプローチは、データ拡張技術によるドメインの不一致を緩和しようとするものだ。
しかし、ドメインシフトと限られたドメイン固有の知識のため、モデルは急激な相関の落とし穴に陥る傾向にある。
これは、オブジェクトの輪郭のような本質的なドメイン不変表現ではなく、単純化された分類特徴(例えば色)に対するモデルの過度な依存として現れている。
そこで我々はCauvis (Causal Visual Prompts) 法を提案する。
まず、視覚的プロンプトとクロスアテンションを統合することで、刺激的な特徴からバイアスを軽減できるクロスアテンション・プロンプト・モジュールを導入する。
単一領域の一般化のための視覚的プロンプトにおけるドメイン知識の不十分さと突発的特徴の絡み合いに対処するため,高周波特徴抽出によるドメイン適応を実現しつつ因果的特徴を歪曲するデュアルブランチアダプタを提案する。
Cauvisは、SDGODデータセット上の既存のドメイン一般化手法よりも15.9-31.4%向上し、複雑な干渉環境において大きな堅牢性を持つ。
関連論文リスト
- Boosting Domain Generalized and Adaptive Detection with Diffusion Models: Fitness, Generalization, and Transferability [0.0]
ディテクタは、トレーニングとテストデータのドメインギャップによって、しばしばパフォーマンス低下に悩まされる。
近年,領域一般化(DG)や適応(DA)タスクに応用された拡散モデルが研究されている。
単一段階拡散過程から中間的特徴を抽出することにより,これらの問題に対処することを提案する。
論文 参考訳(メタデータ) (2025-06-26T06:42:23Z) - Object Style Diffusion for Generalized Object Detection in Urban Scene [69.04189353993907]
本稿では,GoDiffという新しい単一ドメインオブジェクト検出一般化手法を提案する。
擬似ターゲットドメインデータとソースドメインデータを統合することで、トレーニングデータセットを多様化する。
実験により,本手法は既存の検出器の一般化能力を高めるだけでなく,他の単一領域一般化手法のプラグ・アンド・プレイ拡張として機能することが示された。
論文 参考訳(メタデータ) (2024-12-18T13:03:00Z) - Boundless Across Domains: A New Paradigm of Adaptive Feature and Cross-Attention for Domain Generalization in Medical Image Segmentation [1.93061220186624]
ドメイン不変表現学習は、ドメイン一般化の強力な方法である。
従来のアプローチでは、高い計算要求、トレーニングの不安定性、高次元データによる限られた有効性といった課題に直面していた。
本研究では,分布空間を探索しながら分布外サンプルを生成する適応的特徴ブレンディング(AFB)手法を提案する。
論文 参考訳(メタデータ) (2024-11-22T12:06:24Z) - Unified Domain Adaptive Semantic Segmentation [105.05235403072021]
Unsupervised Adaptive Domain Semantic (UDA-SS)は、ラベル付きソースドメインからラベル付きターゲットドメインに監督を移すことを目的としている。
本稿では,特徴量と特徴量との相違に対処するQuad-directional Mixup(QuadMix)法を提案する。
提案手法は,4つの挑戦的UDA-SSベンチマークにおいて,最先端の成果を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2023-11-22T09:18:49Z) - CLIP the Gap: A Single Domain Generalization Approach for Object
Detection [60.20931827772482]
単一ドメインの一般化(Single Domain Generalization)は、単一のソースドメイン上でモデルをトレーニングすることで、目に見えないターゲットドメインに一般化する問題に取り組む。
本稿では、事前学習された視覚言語モデルを用いて、テキストプロンプトを介して意味領域の概念を導入することを提案する。
本手法は,検出器のバックボーンから抽出した特徴に作用する意味的拡張戦略と,テキストに基づく分類損失によって実現される。
論文 参考訳(メタデータ) (2023-01-13T12:01:18Z) - Decompose to Adapt: Cross-domain Object Detection via Feature
Disentanglement [79.2994130944482]
本研究では,DDF(Domain Disentanglement Faster-RCNN)を設計し,タスク学習のための特徴のソース固有情報を排除した。
DDF法は,グローバルトリプルト・ディアンタングルメント(GTD)モジュールとインスタンス類似性・ディアンタングルメント(ISD)モジュールを用いて,グローバルおよびローカルステージでの機能ディアンタングルを容易にする。
提案手法は,4つのUDAオブジェクト検出タスクにおいて最先端の手法より優れており,広い適用性で有効であることが実証された。
論文 参考訳(メタデータ) (2022-01-06T05:43:01Z) - AFAN: Augmented Feature Alignment Network for Cross-Domain Object
Detection [90.18752912204778]
オブジェクト検出のための教師なしドメイン適応は、多くの現実世界のアプリケーションにおいて難しい問題である。
本稿では、中間領域画像生成とドメイン・アドバイザリー・トレーニングを統合した新しい機能アライメント・ネットワーク(AFAN)を提案する。
提案手法は、類似および異種ドメイン適応の双方において、標準ベンチマークにおける最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-10T05:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。