論文の概要: PET-DINO: Unifying Visual Cues into Grounding DINO with Prompt-Enriched Training
- arxiv url: http://arxiv.org/abs/2604.00503v1
- Date: Wed, 01 Apr 2026 05:36:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.849819
- Title: PET-DINO: Unifying Visual Cues into Grounding DINO with Prompt-Enriched Training
- Title(参考訳): PET-DINO:プロンプト強化トレーニングで視覚クイズを接地するDINO
- Authors: Weifu Fu, Jinyang Li, Bin-Bin Gao, Jialin Li, Yuhuan Lin, Hanqiu Deng, Wenbing Tao, Yong Liu, Chengjie Wang,
- Abstract要約: Open-Set Object Detection (OSOD)は、固定クラスを超えた新しいカテゴリの認識を可能にする。
テキストと視覚のプロンプトをサポートするユニバーサル検出器PET-DINOを提案する。
本稿では,IBP(Intra-Batch Parallel Prompting)をレベル,DMD(Dynamic Memory-Driven Prompting)をトレーニングレベルで導入する。
- 参考スコア(独自算出の注目度): 72.04117115296917
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Open-Set Object Detection (OSOD) enables recognition of novel categories beyond fixed classes but faces challenges in aligning text representations with complex visual concepts and the scarcity of image-text pairs for rare categories. This results in suboptimal performance in specialized domains or with complex objects. Recent visual-prompted methods partially address these issues but often involve complex multi-modal designs and multi-stage optimizations, prolonging the development cycle. Additionally, effective training strategies for data-driven OSOD models remain largely unexplored. To address these challenges, we propose PET-DINO, a universal detector supporting both text and visual prompts. Our Alignment-Friendly Visual Prompt Generation (AFVPG) module builds upon an advanced text-prompted detector, addressing the limitations of text representation guidance and reducing the development cycle. We introduce two prompt-enriched training strategies: Intra-Batch Parallel Prompting (IBP) at the iteration level and Dynamic Memory-Driven Prompting (DMD) at the overall training level. These strategies enable simultaneous modeling of multiple prompt routes, facilitating parallel alignment with diverse real-world usage scenarios. Comprehensive experiments demonstrate that PET-DINO exhibits competitive zero-shot object detection capabilities across various prompt-based detection protocols. These strengths can be attributed to inheritance-based philosophy and prompt-enriched training strategies, which play a critical role in building an effective generic object detector. Project page: https://fuweifuvtoo.github.io/pet-dino.
- Abstract(参考訳): Open-Set Object Detection (OSOD)は、固定クラスを超えた新しいカテゴリの認識を可能にするが、複雑な視覚概念とテキスト表現の整合や、まれなカテゴリに対する画像テキストペアの不足といった課題に直面している。
この結果、特殊領域や複雑なオブジェクトでの準最適性能が得られる。
最近のビジュアルプロンプト法はこれらの問題に部分的に対処するが、複雑なマルチモーダル設計と多段階最適化を伴い、開発サイクルを延長することが多い。
さらに、データ駆動型OSODモデルの効果的なトレーニング戦略はほとんど未検討のままである。
これらの課題に対処するために,テキストと視覚のプロンプトをサポートするユニバーサル検出器PET-DINOを提案する。
我々のアライメントフレンドリーなビジュアルプロンプト生成(AFVPG)モジュールは、テキスト表現誘導の限界に対処し、開発サイクルを短縮する高度なテキストプロンプト検出器の上に構築されている。
IBP(Intra-Batch Parallel Prompting)をイテレーションレベルで、DMD(Dynamic Memory-Driven Prompting)をトレーニングレベルで導入する。
これらの戦略は、複数のプロンプトルートの同時モデリングを可能にし、多様な現実世界の使用シナリオとの並列アライメントを容易にする。
PET-DINOは、様々なプロンプトベースの検出プロトコル間で競合するゼロショットオブジェクト検出能力を示す。
これらの強みは、遺伝に基づく哲学と、効果的なジェネリックオブジェクト検出器を構築する上で重要な役割を果たす急激な訓練戦略に起因する可能性がある。
プロジェクトページ: https://fuweifuvtoo.github.io/pet-dino.com
関連論文リスト
- VirPro: Visual-referred Probabilistic Prompt Learning for Weakly-Supervised Monocular 3D Detection [12.835071167163607]
VirProは適応型マルチモーダル事前トレーニングパラダイムであり、様々な弱い教師付き単分子3D検出フレームワークにシームレスに統合することができる。
我々は、さまざまな学習可能なインスタンス条件のプロンプトを生成し、それらをAPB(Adaptive Prompt Bank)に格納する。
論文 参考訳(メタデータ) (2026-03-18T08:23:55Z) - Parameterized Prompt for Incremental Object Detection [40.077943384096805]
既存のプロンプト プールベースのアプローチは、インクリメンタルタスクにまたがる不整合クラスセットを前提とします。
共起シナリオでは、以前のタスクからラベル付けされていないオブジェクトが現在のタスクイメージに表示され、プロンプトプールが混乱する可能性がある。
本稿では,タスク間の適応的な整合性を示すために,破滅的な忘れを抑えるために,制約のある更新を施す必要があることを留意する。
論文 参考訳(メタデータ) (2025-10-31T09:41:49Z) - Generative Compositor for Few-Shot Visual Information Extraction [60.663887314625164]
生成空間モデルとして生成空間モデル(Generative Generative Spacetor)を提案する。
ジェネレーティブジェネレーター(Generative Generative Spacetor)は、ソーステキストから単語を検索することでコンポジタの操作をエミュレートするハイブリッドポインタージェネレータネットワークである。
提案手法は,1ショット,5ショット,10ショットの設定において,ベースラインを上回りながら,フルサンプルトレーニングにおいて高い競争力を発揮する。
論文 参考訳(メタデータ) (2025-03-21T04:56:24Z) - MQADet: A Plug-and-Play Paradigm for Enhancing Open-Vocabulary Object Detection via Multimodal Question Answering [5.503514317063399]
既存のオープンボキャブラリ検出器は、複雑な視覚・テクスチャのミスアライメントと長い尾のカテゴリーの不均衡によって制限される。
マルチモーダルな大言語モデルのクロスモーダル推論機能を活用することで、既存のオープン語彙検出器を強化するための共通パラダイムであるMQADetを紹介する。
複雑なテキストと視覚的ターゲットを正確にローカライズするためにMLLMをガイドする3段階のMultimodal Question Answering (MQA) パイプラインを設計する。
論文 参考訳(メタデータ) (2025-02-23T07:59:39Z) - Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.59476118365266]
視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。
AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - Unified Demonstration Retriever for In-Context Learning [56.06473069923567]
Unified Demonstration Retriever (textbfUDR)は、幅広いタスクのデモを検索する単一のモデルである。
我々は,高品質な候補を見つけるための反復的なマイニング戦略を備えたマルチタスクリストワイド・トレーニング・フレームワークを提案する。
13のタスクファミリーと複数のデータドメインにわたる30以上のタスクの実験は、UDRがベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2023-05-07T16:07:11Z) - Prompting Decision Transformer for Few-Shot Policy Generalization [98.0914217850999]
本稿では,オフラインRLにおける少数ショット適応を実現するために,Prompt-based Decision Transformer (Prompt-DT)を提案する。
Prompt-DTは、目に見えないターゲットタスクを微調整することなく、強力な数発の学習者である。
論文 参考訳(メタデータ) (2022-06-27T17:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。