論文の概要: Towards Domain-Generalized Open-Vocabulary Object Detection: A Progressive Domain-invariant Cross-modal Alignment Method
- arxiv url: http://arxiv.org/abs/2603.27556v1
- Date: Sun, 29 Mar 2026 07:39:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.02457
- Title: Towards Domain-Generalized Open-Vocabulary Object Detection: A Progressive Domain-invariant Cross-modal Alignment Method
- Title(参考訳): ドメイン一般化オープンボキャブラリオブジェクト検出に向けて:プログレッシブなドメイン不変なクロスモーダルアライメント法
- Authors: Xiaoran Xu, Xiaoshan Yang, Jiangang Yang, Yifan Xu, Jian Liu, Changsheng Xu,
- Abstract要約: Open-Vocabulary Object Detectionは、新しいカテゴリへの一般化において大きな成功を収めた。
我々は、OVODパラダイムの原則的な見直しを行い、根本的な脆弱性を明らかにする。
PICA(Progressive Domain-invariant Cross-Modal Alignment)を提案する。
- 参考スコア(独自算出の注目度): 59.30562121800656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-Vocabulary Object Detection (OVOD) has achieved remarkable success in generalizing to novel categories. However, this success often rests on the implicit assumption of domain stationarity. In this work, we provide a principled revisit of the OVOD paradigm, uncovering a fundamental vulnerability: the fragile coupling between visual manifolds and textual embeddings when distribution shifts occur. We first systematically formalize Domain-Generalized Open-Vocabulary Object Detection (DG-OVOD). Through empirical analysis, we demonstrate that visual shifts do not merely add noise; they cause a collapse of the latent cross-modal space where novel category visual signals detach from their semantic anchors. Motivated by these insights, we propose Progressive Domain-invariant Cross-modal Alignment (PICA). PICA departs from uniform training by introducing a multi-level ambiguity and signal strength curriculum. It builds adaptive pseudo-word prototypes, refined via sample confidence and visual consistency, to enforce invariant cross-domain modality alignment. Our findings suggest that OVOD's robustness to domain shifts is intrinsically linked to the stability of the latent cross-modal alignment space. Our work provides both a challenging benchmark and a new perspective on building truly generalizable open-vocabulary systems that extend beyond static laboratory conditions.
- Abstract(参考訳): Open-Vocabulary Object Detection (OVOD)は、新しいカテゴリへの一般化において大きな成功を収めた。
しかし、この成功はしばしばドメインの定常性の暗黙的な仮定に依存している。
本研究では,OVODパラダイムの原理的再検討を行い,分布シフトが発生すると,視覚多様体とテキスト埋め込みとの間の脆弱な結合が生じるという根本的な脆弱性を明らかにする。
まず、ドメイン一般化オープン語彙オブジェクト検出(DG-OVOD)を体系的に定式化する。
経験的分析により、視覚的なシフトは単にノイズを付加するだけでなく、新しいカテゴリーの視覚信号がそれらの意味的アンカーから切り離される潜在モーダル空間が崩壊することを示した。
これらの知見に触発され、我々はプログレッシブ・ドメイン不変のクロスモーダルアライメント(PICA)を提案する。
PICAは、多段階のあいまいさと信号強度のカリキュラムを導入することで、均一なトレーニングから出発する。
適応的な擬単語のプロトタイプを構築し、サンプルの信頼と視覚的一貫性によって洗練され、不変なドメイン間のモダリティアライメントを強制する。
以上の結果から,OVODのドメインシフトに対する頑健性は,潜伏するクロスモーダルアライメント空間の安定性と本質的に関係していることが示唆された。
我々の研究は、挑戦的なベンチマークと、静的な実験室条件を超えて、真に一般化可能なオープン語彙システムを構築するための新しい視点を提供する。
関連論文リスト
- Granular Ball Guided Stable Latent Domain Discovery for Domain-General Crowd Counting [59.55838360454893]
そこで本研究では,一般群集カウントのためのグラニュラーボールガイド型安定潜時ドメイン探索フレームワークを提案する。
具体的には、まずサンプルをコンパクトな局所粒状球体に整理し、次いで粒状球体を代表としてクラスタ化して擬似ドメインを得る。
この設計により、より安定で意味的に一貫性のある擬似ドメイン割り当てが得られる。
論文 参考訳(メタデータ) (2026-03-25T09:12:35Z) - Open-Vocabulary Domain Generalization in Urban-Scene Segmentation [83.15573353963235]
セマンティックドメインのドメイン一般化(DG-SS)は、セグメント化モデルが目に見えない環境で堅牢に動作できるようにすることを目的としている。
VLM(Vision-Language Models)の最近の進歩は、モデルがより広い範囲の概念を認識できるようにすることにより、OV-SS(Open-Vocabulary Semantic)が進歩している。
しかし、これらのモデルはドメインシフトに敏感であり、目に見えない環境にデプロイされた場合、堅牢性を維持するのに苦労する。
状態空間駆動型テキスト画像相関改善機構であるS2-Corrを提案する。
論文 参考訳(メタデータ) (2026-02-21T14:32:27Z) - Asymmetric Hierarchical Anchoring for Audio-Visual Joint Representation: Resolving Information Allocation Ambiguity for Robust Cross-Modal Generalization [19.721857318111734]
指向性情報アロケーションを強制するための非対称階層的アンコリング(AHA)を提案する。
我々は、脆弱な相互情報推定装置を、意味的漏洩を明示的に抑制するGRLベースの逆分離器に置き換える。
AHAは、クロスモーダル移動において対称基底線を一貫して上回る。
論文 参考訳(メタデータ) (2026-02-03T14:14:03Z) - Cross-Domain Transfer with Self-Supervised Spectral-Spatial Modeling for Hyperspectral Image Classification [5.784164305429653]
本稿では,自己管理型クロスドメイン転送フレームワークを提案する。
ソースラベルなしで伝送可能なスペクトル-空間結合表現を学習する。
実験結果は、安定した分類性能と強いクロスドメイン適応性を示す。
論文 参考訳(メタデータ) (2026-01-26T02:52:35Z) - Unified Domain Adaptive Semantic Segmentation [105.05235403072021]
Unsupervised Adaptive Domain Semantic (UDA-SS)は、ラベル付きソースドメインからラベル付きターゲットドメインに監督を移すことを目的としている。
本稿では,特徴量と特徴量との相違に対処するQuad-directional Mixup(QuadMix)法を提案する。
提案手法は,4つの挑戦的UDA-SSベンチマークにおいて,最先端の成果を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2023-11-22T09:18:49Z) - Cross Contrasting Feature Perturbation for Domain Generalization [11.863319505696184]
ドメインの一般化は、目に見えないターゲットドメインをうまく一般化するソースドメインから堅牢なモデルを学ぶことを目的としています。
近年の研究では、ソースドメインに相補的な分布を多様化するための新しいドメインサンプルや特徴の生成に焦点が当てられている。
ドメインシフトをシミュレートするオンラインワンステージクロスコントラスト機能摂動フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-24T03:27:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。