論文の概要: CLIP-Joint-Detect: End-to-End Joint Training of Object Detectors with Contrastive Vision-Language Supervision
- arxiv url: http://arxiv.org/abs/2512.22969v1
- Date: Sun, 28 Dec 2025 15:21:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.30407
- Title: CLIP-Joint-Detect: End-to-End Joint Training of Object Detectors with Contrastive Vision-Language Supervision
- Title(参考訳): CLIP-Joint-Detect--End Joint Training of Object Detector with Contrastive Vision-Language Supervision
- Authors: Behnam Raoufi, Hossein Sharify, Mohamad Mahdee Ramezanee, Khosrow Hajsadeghi, Saeed Bagheri Shouraki,
- Abstract要約: CLIP-Joint-Detectは,エンドツーエンドのジョイントトレーニングを通じて,CLIPスタイルのコントラスト的視覚言語指導を統合するフレームワークである。
軽量並列ヘッドは、CLIP埋め込み空間に領域やグリッドを投影し、InfoNCEの対照的な損失と補助的なクロスエントロピー項を通じて学習可能なクラス固有のテキスト埋め込みと整列する。
我々は、Faster R-CNNを用いたPascal VOC 2007+2012と、最新のYOLO検出器(YOLOv11)を用いた大規模MS 2017ベンチマークでこれを検証した。
- 参考スコア(独自算出の注目度): 0.08699280339422537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional object detectors rely on cross-entropy classification, which can be vulnerable to class imbalance and label noise. We propose CLIP-Joint-Detect, a simple and detector-agnostic framework that integrates CLIP-style contrastive vision-language supervision through end-to-end joint training. A lightweight parallel head projects region or grid features into the CLIP embedding space and aligns them with learnable class-specific text embeddings via InfoNCE contrastive loss and an auxiliary cross-entropy term, while all standard detection losses are optimized simultaneously. The approach applies seamlessly to both two-stage and one-stage architectures. We validate it on Pascal VOC 2007+2012 using Faster R-CNN and on the large-scale MS COCO 2017 benchmark using modern YOLO detectors (YOLOv11), achieving consistent and substantial improvements while preserving real-time inference speed. Extensive experiments and ablations demonstrate that joint optimization with learnable text embeddings markedly enhances closed-set detection performance across diverse architectures and datasets.
- Abstract(参考訳): 従来の物体検出器は、クラス不均衡やラベルノイズに弱いクロスエントロピー分類に依存している。
CLIP-Joint-Detectは,CLIPスタイルのコントラスト型視覚言語監視をエンドツーエンドのジョイントトレーニングを通じて統合する,シンプルかつ検出に依存しないフレームワークである。
軽量並列ヘッドはCLIP埋め込み空間に領域を投影し、InfoNCEの対照的な損失と補助的なクロスエントロピー項を通じて学習可能なクラス固有のテキスト埋め込みと整列し、標準検出損失はすべて同時に最適化される。
このアプローチは、2段階アーキテクチャと1段階アーキテクチャの両方にシームレスに適用される。
我々は、Faster R-CNNを用いたPascal VOC 2007+2012と、現代のYOLO検出器(YOLOv11)を用いた大規模なMS COCO 2017ベンチマークで検証し、リアルタイムの推論速度を維持しながら、一貫性と実質的な改善を実現した。
大規模な実験と改善により、学習可能なテキスト埋め込みとの結合最適化により、さまざまなアーキテクチャやデータセットのクローズドセット検出性能が著しく向上することが示された。
関連論文リスト
- Hierarchical Self-Supervised Representation Learning for Depression Detection from Speech [51.14752758616364]
音声による抑うつ検出 (SDD) は、従来の臨床評価に代わる有望で非侵襲的な代替手段である。
HAREN-CTCは,マルチタスク学習フレームワーク内でのクロスアテンションを用いて,多層SSL機能を統合した新しいアーキテクチャである。
このモデルはDAIC-WOZで0.81、MODMAで0.82の最先端マクロF1スコアを達成し、両方の評価シナリオで先行手法より優れている。
論文 参考訳(メタデータ) (2025-10-05T09:32:12Z) - CLIPin: A Non-contrastive Plug-in to CLIP for Multimodal Semantic Alignment [28.2773807732662]
大規模な自然画像テキストデータセットは、監督の弱いため、しばしば緩やかなセマンティックアライメントに悩まされる。
私たちはCLIPスタイルのアーキテクチャにシームレスに統合できる統合された非コントラストプラグインであるCLIPinを提案する。
2つの共有ロバスト性事前プロジェクタは、コントラスト学習と非コントラスト学習の統合を容易にするために、それぞれ画像とテキストのモダリティのために設計されている。
論文 参考訳(メタデータ) (2025-08-08T16:23:05Z) - Bridge Feature Matching and Cross-Modal Alignment with Mutual-filtering for Zero-shot Anomaly Detection [25.349261412750586]
本研究では,ZSAD 用 textbfFiSeCLIP とトレーニング不要 textbfCLIP を導入し,特徴マッチングとクロスモーダルアライメントを組み合わせた。
本手法は,異常検出ベンチマークにおいて,異常分類とセグメンテーションの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2025-07-15T05:42:17Z) - Refining CLIP's Spatial Awareness: A Visual-Centric Perspective [10.936397225984107]
コントラスト言語-画像 事前学習は、言語とのグローバルな整合性が優れているが、空間情報に対する感度は限られている。
最近のアプローチでは、高密度マルチモーダルタスクにおけるCLIPの性能を高めるために、Rerea-Language Alignmentを導入している。
本稿では,CLIP固有の空間構造を保存し,上記の劣化を緩和する空間相関蒸留(SCD)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-03T07:04:56Z) - Hybrid Multi-Stage Learning Framework for Edge Detection: A Survey [0.0]
本稿では,CNN(Convolutional Neural Network)機能抽出とSVM(Support Vector Machine)を統合したハイブリッド多段階学習フレームワークを提案する。
提案手法は特徴表現と分類段階を分離し,堅牢性と解釈可能性を向上させる。
論文 参考訳(メタデータ) (2025-03-26T13:06:31Z) - C2P-CLIP: Injecting Category Common Prompt in CLIP to Enhance Generalization in Deepfake Detection [98.34703790782254]
本稿では、カテゴリ共通プロンプトCLIPを紹介し、カテゴリ共通プロンプトをテキストエンコーダに統合し、カテゴリ関連概念をイメージエンコーダに注入する。
提案手法は,テスト中に追加パラメータを導入することなく,元のCLIPと比較して検出精度が12.41%向上した。
論文 参考訳(メタデータ) (2024-08-19T02:14:25Z) - GridCLIP: One-Stage Object Detection by Grid-Level CLIP Representation
Learning [55.77244064907146]
一段階検出器GridCLIPはグリッドレベルの表現を学習し、一段階検出学習の本質的な原理に適応する。
実験により、学習したCLIPベースのグリッドレベル表現は、アンダーサンプリングされた(稀で新しい)カテゴリのパフォーマンスを高めることが示された。
論文 参考訳(メタデータ) (2023-03-16T12:06:02Z) - The CLEAR Benchmark: Continual LEArning on Real-World Imagery [77.98377088698984]
連続学習(CL)は、生涯AIにとって重要な課題であると考えられている。
本稿では,視覚概念の自然な時間進化を伴う最初の連続画像分類ベンチマークであるCLEARを紹介する。
単純な教師なし事前学習のステップで、最先端のCLアルゴリズムがすでに強化されていることが分かりました。
論文 参考訳(メタデータ) (2022-01-17T09:09:09Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。