論文の概要: C3-OWD: A Curriculum Cross-modal Contrastive Learning Framework for Open-World Detection
- arxiv url: http://arxiv.org/abs/2509.23316v1
- Date: Sat, 27 Sep 2025 14:04:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.156481
- Title: C3-OWD: A Curriculum Cross-modal Contrastive Learning Framework for Open-World Detection
- Title(参考訳): C3-OWD:オープンワールド検出のためのカリキュラム横断型コントラスト学習フレームワーク
- Authors: Siheng Wang, Zhengdao Li, Yanshu Li, Canran Xiao, Haibo Zhan, Zhengtao Yao, Xuzhi Zhang, Jiale Kang, Linshan Li, Weiming Liu, Zhikang Dong, Jifeng Shen, Junhao Dong, Qiang Sun, Piotr Koniusz,
- Abstract要約: オブジェクト検出は大幅に進歩しているが、現実の展開は、未確認のカテゴリへの一般化の貧弱さと、悪条件下でのロバスト性という2つの課題によって制限されている。
両強みを統一するクロスモーダル・コントラスト学習のカリキュラムである textbfC3-OWD を提案する。
FLIR,OV-COCO,OV-LVISによる実験により,本手法の有効性が示された。
- 参考スコア(独自算出の注目度): 34.63917792892542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object detection has advanced significantly in the closed-set setting, but real-world deployment remains limited by two challenges: poor generalization to unseen categories and insufficient robustness under adverse conditions. Prior research has explored these issues separately: visible-infrared detection improves robustness but lacks generalization, while open-world detection leverages vision-language alignment strategy for category diversity but struggles under extreme environments. This trade-off leaves robustness and diversity difficult to achieve simultaneously. To mitigate these issues, we propose \textbf{C3-OWD}, a curriculum cross-modal contrastive learning framework that unifies both strengths. Stage~1 enhances robustness by pretraining with RGBT data, while Stage~2 improves generalization via vision-language alignment. To prevent catastrophic forgetting between two stages, we introduce an Exponential Moving Average (EMA) mechanism that theoretically guarantees preservation of pre-stage performance with bounded parameter lag and function consistency. Experiments on FLIR, OV-COCO, and OV-LVIS demonstrate the effectiveness of our approach: C3-OWD achieves $80.1$ AP$^{50}$ on FLIR, $48.6$ AP$^{50}_{\text{Novel}}$ on OV-COCO, and $35.7$ mAP$_r$ on OV-LVIS, establishing competitive performance across both robustness and diversity evaluations. Code available at: https://github.com/justin-herry/C3-OWD.git.
- Abstract(参考訳): オブジェクト検出はクローズドセット設定において著しく進歩しているが、現実の展開は2つの課題によって制限されている。
可視赤外検出は堅牢性を改善するが、一般化が欠如する一方、オープンワールド検出はカテゴリの多様性に対して視覚言語によるアライメント戦略を活用するが、極端な環境下では苦労する。
このトレードオフは、堅牢性と多様性を同時に達成することが困難である。
これらの問題を緩和するために,両強みを統一するカリキュラム横断型コントラスト学習フレームワークである‘textbf{C3-OWD} を提案する。
Stage~1はRGBTデータで事前トレーニングすることで堅牢性を高め、Stage~2は視覚言語アライメントによる一般化を改善している。
本研究では,2段階間の破滅的忘れを防止するために,有界パラメータラグと関数整合性による前段階性能の保存を理論的に保証する指数移動平均(EMA)機構を導入する。
C3-OWDは、FLIRで80.1$ AP$^{50}$、OV-COCOで48.6$ AP$^{50}_{\text{Novel}}$、OV-LVISで35.7$ mAP$_r$、堅牢性と多様性の評価で競争性能を確立する。
https://github.com/justin-herry/C3-OWD.git.com
関連論文リスト
- Universal Camouflage Attack on Vision-Language Models for Autonomous Driving [67.34987318443761]
自動運転のためのビジュアル言語モデリングが、有望な研究方向として浮上している。
VLM-ADは、敵の攻撃による深刻なセキュリティ脅威に弱いままである。
VLM-ADのための最初のユニバーサルカモフラージュ攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-24T14:52:01Z) - EyeSeg: An Uncertainty-Aware Eye Segmentation Framework for AR/VR [58.33693755009173]
EyeSegは拡張現実(AR)と仮想現実(VR)のための不確実性を認識したアイセグメンテーションフレームワーク
我々は,従来のアプローチを超越したMIoU,E1,F1,ACCのセグメンテーション改善を実現していることを示す。
論文 参考訳(メタデータ) (2025-07-13T14:33:10Z) - HiLa: Hierarchical Vision-Language Collaboration for Cancer Survival Prediction [55.00788339683146]
生存予測を改善するための新しい階層型視覚・言語協調フレームワークを提案する。
具体的には、HiLaは事前訓練された特徴抽出器を使用して、パッチレベルとリージョンレベルの両方でWSIから階層的な視覚的特徴を生成する。
このap-proachは、プロンプトから異なる生存関連属性に対応する識別的視覚特徴の包括的学習を可能にする。
論文 参考訳(メタデータ) (2025-07-07T02:06:25Z) - Adaptive Illumination-Invariant Synergistic Feature Integration in a Stratified Granular Framework for Visible-Infrared Re-Identification [18.221111822542024]
Visible-Infrared Person Re-Identification (VI-ReID) は、捜索・救助、インフラ保護、夜間監視などの応用において重要な役割を担っている。
適応型モダリティインタラクションネットワークである textbfAMINet を提案する。
AMINetは、全体画像と上体画像の両方から包括的アイデンティティ属性をキャプチャするために、多粒度特徴抽出を利用する。
論文 参考訳(メタデータ) (2025-02-28T15:42:58Z) - Cooperative Students: Navigating Unsupervised Domain Adaptation in Nighttime Object Detection [1.6624384368855527]
教師なし領域適応 (Unsupervised Domain Adaptation, UDA) は、厳密な条件下での物体検出において顕著な進歩を示した。
UDAのパフォーマンスは特に夜間の低可視性シナリオで低下する。
この問題に対処するため,textbfCooperative textbfStudents (textbfCoS) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-02T14:26:18Z) - Anticipating the Unseen Discrepancy for Vision and Language Navigation [63.399180481818405]
視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。
目に見える環境と目に見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。
本研究では,テストタイムの視覚的整合性を促進することによって,未知の環境への一般化を学習する,未知の離散性予測ビジョンと言語ナビゲーション(DAVIS)を提案する。
論文 参考訳(メタデータ) (2022-09-10T19:04:40Z) - On Exploring Pose Estimation as an Auxiliary Learning Task for
Visible-Infrared Person Re-identification [66.58450185833479]
本稿では,Pose Estimationを補助学習タスクとして活用して,エンドツーエンドフレームワークにおけるVI-ReIDタスクを支援する。
これら2つのタスクを相互に有利な方法で共同でトレーニングすることにより、高品質なモダリティ共有とID関連の特徴を学習する。
2つのベンチマークVI-ReIDデータセットの実験結果から,提案手法は一定のマージンで最先端の手法を継続的に改善することが示された。
論文 参考訳(メタデータ) (2022-01-11T09:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。