論文の概要: C3-OWD: A Curriculum Cross-modal Contrastive Learning Framework for Open-World Detection
- arxiv url: http://arxiv.org/abs/2509.23316v1
- Date: Sat, 27 Sep 2025 14:04:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.156481
- Title: C3-OWD: A Curriculum Cross-modal Contrastive Learning Framework for Open-World Detection
- Title(参考訳): C3-OWD:オープンワールド検出のためのカリキュラム横断型コントラスト学習フレームワーク
- Authors: Siheng Wang, Zhengdao Li, Yanshu Li, Canran Xiao, Haibo Zhan, Zhengtao Yao, Xuzhi Zhang, Jiale Kang, Linshan Li, Weiming Liu, Zhikang Dong, Jifeng Shen, Junhao Dong, Qiang Sun, Piotr Koniusz,
- Abstract要約: オブジェクト検出は大幅に進歩しているが、現実の展開は、未確認のカテゴリへの一般化の貧弱さと、悪条件下でのロバスト性という2つの課題によって制限されている。
両強みを統一するクロスモーダル・コントラスト学習のカリキュラムである textbfC3-OWD を提案する。
FLIR,OV-COCO,OV-LVISによる実験により,本手法の有効性が示された。
- 参考スコア(独自算出の注目度): 34.63917792892542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object detection has advanced significantly in the closed-set setting, but real-world deployment remains limited by two challenges: poor generalization to unseen categories and insufficient robustness under adverse conditions. Prior research has explored these issues separately: visible-infrared detection improves robustness but lacks generalization, while open-world detection leverages vision-language alignment strategy for category diversity but struggles under extreme environments. This trade-off leaves robustness and diversity difficult to achieve simultaneously. To mitigate these issues, we propose \textbf{C3-OWD}, a curriculum cross-modal contrastive learning framework that unifies both strengths. Stage~1 enhances robustness by pretraining with RGBT data, while Stage~2 improves generalization via vision-language alignment. To prevent catastrophic forgetting between two stages, we introduce an Exponential Moving Average (EMA) mechanism that theoretically guarantees preservation of pre-stage performance with bounded parameter lag and function consistency. Experiments on FLIR, OV-COCO, and OV-LVIS demonstrate the effectiveness of our approach: C3-OWD achieves $80.1$ AP$^{50}$ on FLIR, $48.6$ AP$^{50}_{\text{Novel}}$ on OV-COCO, and $35.7$ mAP$_r$ on OV-LVIS, establishing competitive performance across both robustness and diversity evaluations. Code available at: https://github.com/justin-herry/C3-OWD.git.
- Abstract(参考訳): オブジェクト検出はクローズドセット設定において著しく進歩しているが、現実の展開は2つの課題によって制限されている。
可視赤外検出は堅牢性を改善するが、一般化が欠如する一方、オープンワールド検出はカテゴリの多様性に対して視覚言語によるアライメント戦略を活用するが、極端な環境下では苦労する。
このトレードオフは、堅牢性と多様性を同時に達成することが困難である。
これらの問題を緩和するために,両強みを統一するカリキュラム横断型コントラスト学習フレームワークである‘textbf{C3-OWD} を提案する。
Stage~1はRGBTデータで事前トレーニングすることで堅牢性を高め、Stage~2は視覚言語アライメントによる一般化を改善している。
本研究では,2段階間の破滅的忘れを防止するために,有界パラメータラグと関数整合性による前段階性能の保存を理論的に保証する指数移動平均(EMA)機構を導入する。
C3-OWDは、FLIRで80.1$ AP$^{50}$、OV-COCOで48.6$ AP$^{50}_{\text{Novel}}$、OV-LVISで35.7$ mAP$_r$、堅牢性と多様性の評価で競争性能を確立する。
https://github.com/justin-herry/C3-OWD.git.com
関連論文リスト
- OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning [82.39668822222386]
ビジョントークンプルーニングは、効率的なビジョン言語モデル(VLM)のための効果的なアクセラレーション手法であることが証明された。
空間的整合性を維持しつつ,効率的な特徴集約を実現するための2段階のトークンプルーニングフレームワークである$textNwa$を提案する。
実験によると、textNwa$は複数のVQAベンチマーク(94%から95%)でSOTAのパフォーマンスを達成し、視覚的グラウンドタスク(7%から47%)を大幅に改善している。
論文 参考訳(メタデータ) (2026-02-03T00:51:03Z) - SSVP: Synergistic Semantic-Visual Prompting for Industrial Zero-Shot Anomaly Detection [55.54007781679915]
本稿では,多種多様な視覚的エンコーディングを効率よく融合させ,モデルの微粒化知覚を高めるSynergistic Semantic-Visual Prompting (SSVP)を提案する。
SSVPは、MVTec-AD上で93.0%のImage-AUROCと92.2%のPixel-AUROCで最先端のパフォーマンスを達成し、既存のゼロショットアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-14T04:42:19Z) - Human-Centric Anomaly Detection in Surveillance Videos Using YOLO-World and Spatio-Temporal Deep Learning [0.1019561860229868]
監視ビデオにおける異常検出は、異常事象の多様性、クラス不均衡、シーン依存の視覚的乱れなどにより、依然として困難な課題である。
マルチクラス異常分類のための時間的モデリングと人間の重み付け前処理を統合した頑健なディープラーニングフレームワークを提案する。
本手法は,3つの独立した試験において平均テスト精度が92.41%であり,クラスごとのF1スコアは0.85以上である。
論文 参考訳(メタデータ) (2025-10-24T22:38:17Z) - VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning [62.09195763860549]
検証可能な報酬(RLVR)による強化学習は、大きな言語モデル(LLM)の推論を改善するが、探索に苦労する。
出力(テキスト)から入力(視覚)空間へ探索をシフトする新しい手法である$textbfVOGUE(Visual Uncertainty Guided Exploration)を紹介した。
本研究は,視覚入力の本質的不確実性における基盤探索が,マルチモーダル推論を改善するための効果的な戦略であることを示す。
論文 参考訳(メタデータ) (2025-10-01T20:32:08Z) - Universal Camouflage Attack on Vision-Language Models for Autonomous Driving [67.34987318443761]
自動運転のためのビジュアル言語モデリングが、有望な研究方向として浮上している。
VLM-ADは、敵の攻撃による深刻なセキュリティ脅威に弱いままである。
VLM-ADのための最初のユニバーサルカモフラージュ攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-24T14:52:01Z) - EyeSeg: An Uncertainty-Aware Eye Segmentation Framework for AR/VR [58.33693755009173]
EyeSegは拡張現実(AR)と仮想現実(VR)のための不確実性を認識したアイセグメンテーションフレームワーク
我々は,従来のアプローチを超越したMIoU,E1,F1,ACCのセグメンテーション改善を実現していることを示す。
論文 参考訳(メタデータ) (2025-07-13T14:33:10Z) - HiLa: Hierarchical Vision-Language Collaboration for Cancer Survival Prediction [55.00788339683146]
生存予測を改善するための新しい階層型視覚・言語協調フレームワークを提案する。
具体的には、HiLaは事前訓練された特徴抽出器を使用して、パッチレベルとリージョンレベルの両方でWSIから階層的な視覚的特徴を生成する。
このap-proachは、プロンプトから異なる生存関連属性に対応する識別的視覚特徴の包括的学習を可能にする。
論文 参考訳(メタデータ) (2025-07-07T02:06:25Z) - Adaptive Illumination-Invariant Synergistic Feature Integration in a Stratified Granular Framework for Visible-Infrared Re-Identification [18.221111822542024]
Visible-Infrared Person Re-Identification (VI-ReID) は、捜索・救助、インフラ保護、夜間監視などの応用において重要な役割を担っている。
適応型モダリティインタラクションネットワークである textbfAMINet を提案する。
AMINetは、全体画像と上体画像の両方から包括的アイデンティティ属性をキャプチャするために、多粒度特徴抽出を利用する。
論文 参考訳(メタデータ) (2025-02-28T15:42:58Z) - Cooperative Students: Navigating Unsupervised Domain Adaptation in Nighttime Object Detection [1.6624384368855527]
教師なし領域適応 (Unsupervised Domain Adaptation, UDA) は、厳密な条件下での物体検出において顕著な進歩を示した。
UDAのパフォーマンスは特に夜間の低可視性シナリオで低下する。
この問題に対処するため,textbfCooperative textbfStudents (textbfCoS) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-02T14:26:18Z) - Anticipating the Unseen Discrepancy for Vision and Language Navigation [63.399180481818405]
視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。
目に見える環境と目に見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。
本研究では,テストタイムの視覚的整合性を促進することによって,未知の環境への一般化を学習する,未知の離散性予測ビジョンと言語ナビゲーション(DAVIS)を提案する。
論文 参考訳(メタデータ) (2022-09-10T19:04:40Z) - On Exploring Pose Estimation as an Auxiliary Learning Task for
Visible-Infrared Person Re-identification [66.58450185833479]
本稿では,Pose Estimationを補助学習タスクとして活用して,エンドツーエンドフレームワークにおけるVI-ReIDタスクを支援する。
これら2つのタスクを相互に有利な方法で共同でトレーニングすることにより、高品質なモダリティ共有とID関連の特徴を学習する。
2つのベンチマークVI-ReIDデータセットの実験結果から,提案手法は一定のマージンで最先端の手法を継続的に改善することが示された。
論文 参考訳(メタデータ) (2022-01-11T09:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。