論文の概要: DETR-ViP: Detection Transformer with Robust Discriminative Visual Prompts
- arxiv url: http://arxiv.org/abs/2604.14684v1
- Date: Thu, 16 Apr 2026 06:40:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.762768
- Title: DETR-ViP: Detection Transformer with Robust Discriminative Visual Prompts
- Title(参考訳): DETR-ViP:ロバスト識別型視覚プロンプトを用いた検出変換器
- Authors: Bo Qian, Dahu Shi, Xing Wei,
- Abstract要約: クラス識別可能な視覚的プロンプトを生成する頑健なオブジェクト検出フレームワークであるDETR-ViPを提案する。
DETR-ViPは、基本的な画像・テキスト・コントラスト学習に加えて、グローバル・プロンプト統合と視覚・テキスト・プロンプト関係蒸留を取り入れている。
COCO、LVIS、ODinW、Roboflow100の実験は、DETR-ViPが視覚的プロンプト検出において、かなり高い性能を達成することを示した。
- 参考スコア(独自算出の注目度): 11.577330098443696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual prompted object detection enables interactive and flexible definition of target categories, thereby facilitating open-vocabulary detection. Since visual prompts are derived directly from image features, they often outperform text prompts in recognizing rare categories. Nevertheless, research on visual prompted detection has been largely overlooked, and it is typically treated as a byproduct of training text prompted detectors, which hinders its development. To fully unlock the potential of visual-prompted detection, we investigate the reasons why its performance is suboptimal and reveal that the underlying issue lies in the absence of global discriminability in visual prompts. Motivated by these observations, we propose DETR-ViP, a robust object detection framework that yields class-distinguishable visual prompts. On top of basic image-text contrastive learning, DETR-ViP incorporates global prompt integration and visual-textual prompt relation distillation to learn more discriminative prompt representations. In addition, DETR-ViP employs a selective fusion strategy that ensures stable and robust detection. Extensive experiments on COCO, LVIS, ODinW, and Roboflow100 demonstrate that DETR-ViP achieves substantially higher performance in visual prompt detection compared to other state-of-the-art counterparts. A series of ablation studies and analyses further validate the effectiveness of the proposed improvements and shed light on the underlying reasons for the enhanced detection capability of visual prompts.
- Abstract(参考訳): 視覚的に誘導されるオブジェクト検出は、対話的で柔軟なターゲットカテゴリの定義を可能にし、オープン語彙検出を容易にする。
視覚的プロンプトは画像の特徴から直接導出されるため、まれなカテゴリを認識する際にはテキストプロンプトよりも優れていることが多い。
それでも、視覚的誘発検出の研究はほとんど見落とされ、通常は訓練用テキスト誘発検出器の副産物として扱われ、開発を妨げている。
視覚的プロンプト検出の可能性を完全に解き明かすために,その性能が最適以下である理由を調査し,その根底にある問題は,視覚的プロンプトにおけるグローバルな識別性の欠如にあることを明らかにする。
これらの観測により,クラス区別可能な視覚的プロンプトを生成する頑健なオブジェクト検出フレームワークであるDETR-ViPを提案する。
DETR-ViPは、基本的な画像テキストコントラスト学習に加えて、より識別的なプロンプト表現を学ぶために、グローバルプロンプト積分と視覚テキストプロンプト関係蒸留を取り入れている。
さらに、DETR-ViPは安定かつ堅牢な検出を保証する選択的融合戦略を採用している。
COCO、LVIS、ODinW、Roboflow100の大規模な実験は、DETR-ViPが他の最先端技術と比較して、視覚的プロンプト検出においてかなり高い性能を達成することを示した。
一連のアブレーション研究と分析は、提案された改善の有効性をさらに検証し、視覚的プロンプトの検出能力の向上の基礎となる理由について光を当てた。
関連論文リスト
- Unleashing Vision-Language Semantics for Deepfake Video Detection [78.7562836979696]
ディープフェイクビデオ検出(DFD)研究は、事前訓練されたビジョンランゲージモデル(VLM)が、異なるアイデンティティにわたるアーティファクトの検出において強力な一般化能力を示すことを示した。
VLAForgeは、深度検出におけるモデルの識別可能性を高めるために、そのようなクロスモーダルセマンティクスの可能性を解き放つ新しいDFDフレームワークである。
論文 参考訳(メタデータ) (2026-03-25T16:05:35Z) - VirPro: Visual-referred Probabilistic Prompt Learning for Weakly-Supervised Monocular 3D Detection [12.835071167163607]
VirProは適応型マルチモーダル事前トレーニングパラダイムであり、様々な弱い教師付き単分子3D検出フレームワークにシームレスに統合することができる。
我々は、さまざまな学習可能なインスタンス条件のプロンプトを生成し、それらをAPB(Adaptive Prompt Bank)に格納する。
論文 参考訳(メタデータ) (2026-03-18T08:23:55Z) - Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning [79.34909830834464]
VLM(Vision-Language Models)は様々な視覚的タスクで顕著な成功を収めているが、複雑な視覚環境では性能が低下している。
視覚的複雑性は、注意エントロピーと強く相関し、推論性能に悪影響を及ぼすことを示す。
本稿では,CARVE(Contrastive Attention Refinement for Visual Enhancement)を提案する。
論文 参考訳(メタデータ) (2025-09-08T09:20:04Z) - Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - Learning Knowledge-based Prompts for Robust 3D Mask Presentation Attack Detection [71.60120616284246]
本稿では,3次元マスク提示攻撃検出のための視覚言語モデルの強力な一般化能力を検討するための,知識に基づく新しいプロンプト学習フレームワークを提案する。
実験により,提案手法は最先端のシナリオ内およびクロスシナリオ検出性能を実現することを示す。
論文 参考訳(メタデータ) (2025-05-06T15:09:23Z) - Leveraging Retrieval-Augmented Tags for Large Vision-Language Understanding in Complex Scenes [0.0]
Vision-Aware Retrieval-Augmented Prompting (VRAP)は、大規模ビジョンランゲージモデルを強化するジェネレーティブアプローチである。
VRAPは、微細な推論とマルチモーダル理解において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-16T02:52:19Z) - Zero-shot Visual Relation Detection via Composite Visual Cues from Large
Language Models [44.60439935450292]
本稿では,ゼロショット視覚認識のための新しい手法であるRECODEを提案する。
各述語カテゴリを主題、対象、空間構成要素に分解する。
異なる視覚的手がかりは、異なる視点から類似した関係カテゴリの識別可能性を高める。
論文 参考訳(メタデータ) (2023-05-21T14:40:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。