論文の概要: VFM$^{4}$SDG: Unveiling the Power of VFMs for Single-Domain Generalized Object Detection
- arxiv url: http://arxiv.org/abs/2604.21502v1
- Date: Thu, 23 Apr 2026 10:04:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.433026
- Title: VFM$^{4}$SDG: Unveiling the Power of VFMs for Single-Domain Generalized Object Detection
- Title(参考訳): VFM$^{4}$SDG:単一領域一般化オブジェクト検出のためのVFMのパワーを解放する
- Authors: Yupeng Zhang, Ruize Han, Ningnan Guo, Wei Feng, Song Wang, Liang Wan,
- Abstract要約: 現実のシナリオでは、天気、照明、撮像条件の連続的な変化は、大きなドメインシフトを引き起こす。
一般化オブジェクト検出(SDGOD)のための二元学習フレームワークを提案する。
符号化段階では,オブジェクト・バックグラウンドとインスタンス間モデリングの堅牢性を高めるために,クロスドメイン安定優先蒸留を提案する。
復号段階では,セマンティック・コンテキスト優先型クエリ拡張を提案する。
- 参考スコア(独自算出の注目度): 33.39250067795076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In real-world scenarios, continual changes in weather, illumination, and imaging conditions cause significant domain shifts, leading detectors trained on a single source domain to degrade severely in unseen environments. Existing single-domain generalized object detection (SDGOD) methods mainly rely on data augmentation or domain-invariant representation learning, but pay limited attention to detector mechanisms, leaving clear limitations under complex domain shifts. Through analytical experiments, we find that performance degradation is dominated by increasing missed detections, which fundamentally arises from reduced cross-domain stability of the detector: object-background and inter-instance relations become less stable in the encoding stage, while semantic-spatial alignment of query representations also becomes harder to maintain in the decoding stage. To this end, we propose VFM$^{4}$SDG, a dual-prior learning framework for SDGOD, which introduces a frozen vision foundation model (VFM) as a transferable cross-domain stability prior into detector representation learning and query modeling. In the encoding stage, we propose Cross-domain Stable Relational Prior Distillation to enhance the robustness of object-background and inter-instance relational modeling. In the decoding stage, we propose Semantic-Contextual Prior-based Query Enhancement, which injects category-level semantic prototypes and global visual context into queries to improve their semantic recognition and spatial localization stability in unseen domains. Extensive experiments show that the proposed method consistently outperforms existing SOTA methods on standard SDGOD benchmarks and two mainstream DETR-based detectors, demonstrating its effectiveness, robustness, and generality.
- Abstract(参考訳): 現実のシナリオでは、天気、照明、撮像条件の連続的な変化は、大きなドメインシフトを引き起こし、単一のソースドメインで訓練された検出器は、目に見えない環境で著しく劣化する。
既存の単一ドメイン一般化オブジェクト検出(SDGOD)法は主にデータ拡張やドメイン不変表現学習に依存しているが、検出メカニズムに限定的であり、複雑なドメインシフトの下で明確な制限を残している。
解析実験により,検出器のクロスドメイン安定性の低下から生じる欠落検出の増大により,性能劣化が支配的であることが判明した。
そこで本研究では,SDGODのための二元学習フレームワークであるVFM$^{4}$SDGを提案する。
符号化段階では、オブジェクト背景とインスタンス間関係モデリングの堅牢性を高めるために、クロスドメイン安定なリレーショナル事前蒸留を提案する。
復号段階では,カテゴリレベルのセマンティックプロトタイプとグローバルな視覚的コンテキストをクエリに注入し,意味認識と空間的局所安定性を向上するセマンティック・コンテクスト優先型クエリエンハンスメントを提案する。
拡張実験により,提案手法は標準SDGODベンチマークと2つのメインストリームDETRベースの検出器において既存のSOTA法を一貫して上回り,その有効性,堅牢性,汎用性を実証した。
関連論文リスト
- Rethinking Representations for Cross-Domain Infrared Small Target Detection: A Generalizable Perspective from the Frequency Domain [26.03122882760887]
クロスドメインIRSTDのための空間-スペクトル協調認識ネットワークを提案する。
我々は、一般化可能な目標認識を導出するための位相修正モジュール(PRM)を開発した。
我々は、位置情報を保持するために、スキップ接続に注意機構(OAM)を用いる。
論文 参考訳(メタデータ) (2026-04-02T11:54:28Z) - FOUND: Fourier-based von Mises Distribution for Robust Single Domain Generalization in Object Detection [46.14695068852788]
オブジェクト検出のための単一ドメインの一般化は、対象ドメインに効果的に一般化できる単一のソースドメイン上でモデルをトレーニングすることを目的としている。
本稿では、von Mises-Fisher(vMF)分布とフーリエ変換をCLIP誘導パイプラインに統合することにより、オブジェクト検出を強化する新しいフレームワークを提案する。
提案手法はCLIPのセマンティックアライメントの利点を保全するだけでなく,機能多様性とドメイン間の構造的整合性も強化する。
論文 参考訳(メタデータ) (2025-11-13T14:28:10Z) - VFM-Guided Semi-Supervised Detection Transformer under Source-Free Constraints for Remote Sensing Object Detection [9.029534000674388]
VG-DETRは、Vision Foundation Model(VFM)を「フリーランチ」方法でトレーニングパイプラインに統合する。
擬似ラベルの信頼性を評価するために,VFMのセマンティックな事前情報を利用した擬似ラベルマイニング手法を提案する。
さらに,デュアルレベルのVFM誘導アライメント手法を提案し,インスタンスレベルと画像レベルでのVFM埋め込みと検出器特性を一致させる。
論文 参考訳(メタデータ) (2025-08-15T02:35:56Z) - Style-Adaptive Detection Transformer for Single-Source Domain Generalized Object Detection [7.768332621617199]
単一ソースドメインの一般化は、未確認のターゲットドメインによく一般化するソースドメインデータのみを使用して検出器を開発することを目的としている。
既存の手法は主にCNNベースで、データ拡張と機能アライメントを組み合わせることで堅牢性を向上させる。
単一ソース領域の一般化に適したDTRベースの検出器であるStyle-Adaptive Detection TRansformer (SA-DETR)を提案する。
論文 参考訳(メタデータ) (2025-04-29T07:38:37Z) - Let Synthetic Data Shine: Domain Reassembly and Soft-Fusion for Single Domain Generalization [68.41367635546183]
単一ドメインの一般化は、単一のソースからのデータを使用して、さまざまなシナリオで一貫したパフォーマンスでモデルをトレーニングすることを目的としている。
モデル一般化を改善するために合成データを活用した学習フレームワークDRSFを提案する。
論文 参考訳(メタデータ) (2025-03-17T18:08:03Z) - Cross-Domain Few-Shot Object Detection via Enhanced Open-Set Object Detector [72.05791402494727]
本稿では,CD-FSODを用いたクロスドメイン小ショット検出法について検討する。
最小限のラベル付き例で、新しいドメインのための正確なオブジェクト検出器を開発することを目的としている。
論文 参考訳(メタデータ) (2024-02-05T15:25:32Z) - Relation Matters: Foreground-aware Graph-based Relational Reasoning for
Domain Adaptive Object Detection [81.07378219410182]
我々は、FGRR(Fearground-aware Graph-based Reasoning)というドメインDのための新しい汎用フレームワークを提案する。
FGRRはグラフ構造を検出パイプラインに組み込んで、ドメイン内およびドメイン間フォアグラウンドオブジェクト関係を明示的にモデル化する。
実験の結果、提案したFGRRは4つのDomainDベンチマークの最先端よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-06-06T05:12:48Z) - AFAN: Augmented Feature Alignment Network for Cross-Domain Object
Detection [90.18752912204778]
オブジェクト検出のための教師なしドメイン適応は、多くの現実世界のアプリケーションにおいて難しい問題である。
本稿では、中間領域画像生成とドメイン・アドバイザリー・トレーニングを統合した新しい機能アライメント・ネットワーク(AFAN)を提案する。
提案手法は、類似および異種ドメイン適応の双方において、標準ベンチマークにおける最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-10T05:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。