論文の概要: Text-guided Visual Prompt DINO for Generic Segmentation
- arxiv url: http://arxiv.org/abs/2508.06146v1
- Date: Fri, 08 Aug 2025 09:09:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.164069
- Title: Text-guided Visual Prompt DINO for Generic Segmentation
- Title(参考訳): ジェネリックセグメンテーションのためのテキスト誘導型ビジュアルプロンプトDINO
- Authors: Yuchen Guan, Chong Sun, Canmiao Fu, Zhipeng Huang, Chun Yuan, Chen Li,
- Abstract要約: テキスト誘導型ビジュアルプロンプトDINOフレームワークであるPrompt-DINOを提案する。
まず、テキスト/視覚的プロンプトとバックボーン機能を統一する早期融合機構を導入する。
第二に、DreTRアーキテクチャの順序整合クエリ選択を設計する。
第3に,PR(Prompting, Prompting, Prompting, RAP)モデルによる認識情報を利用した生成データエンジンを開発する。
- 参考スコア(独自算出の注目度): 31.33676182634522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in multimodal vision models have highlighted limitations in late-stage feature fusion and suboptimal query selection for hybrid prompts open-world segmentation, alongside constraints from caption-derived vocabularies. To address these challenges, we propose Prompt-DINO, a text-guided visual Prompt DINO framework featuring three key innovations. First, we introduce an early fusion mechanism that unifies text/visual prompts and backbone features at the initial encoding stage, enabling deeper cross-modal interactions to resolve semantic ambiguities. Second, we design order-aligned query selection for DETR-based architectures, explicitly optimizing the structural alignment between text and visual queries during decoding to enhance semantic-spatial consistency. Third, we develop a generative data engine powered by the Recognize Anything via Prompting (RAP) model, which synthesizes 0.5B diverse training instances through a dual-path cross-verification pipeline, reducing label noise by 80.5% compared to conventional approaches. Extensive experiments demonstrate that Prompt-DINO achieves state-of-the-art performance on open-world detection benchmarks while significantly expanding semantic coverage beyond fixed-vocabulary constraints. Our work establishes a new paradigm for scalable multimodal detection and data generation in open-world scenarios. Data&Code are available at https://github.com/WeChatCV/WeVisionOne.
- Abstract(参考訳): マルチモーダル視覚モデルの最近の進歩は、字幕由来の語彙の制約とともに、ラトステージ特徴融合における制限と、ハイブリッドプロンプトのオープンワールドセグメンテーションのためのサブ最適クエリ選択を強調している。
これらの課題に対処するために,3つの重要なイノベーションを特徴とするテキスト誘導型ビジュアルプロンプトDINOフレームワークであるPrompt-DINOを提案する。
まず、初期符号化段階でテキスト/視覚的プロンプトとバックボーン機能を統一する早期融合機構を導入し、より深い相互モーダル相互作用により意味の曖昧さを解消する。
第2に,DeTRアーキテクチャの順序整合クエリ選択を設計し,デコード中のテキストとビジュアルクエリ間の構造的アライメントを明示的に最適化し,セマンティック空間整合性を向上させる。
第3に,Recognize Anything via Prompting (RAP)モデルを用いた生成データエンジンを開発し,従来の手法と比較してラベルノイズを80.5%低減する。
Prompt-DINOは、オープンワールド検出ベンチマークで最先端のパフォーマンスを実現し、固定語彙制約を超えてセマンティックカバレッジを大幅に拡張した。
我々の研究は、オープンワールドシナリオにおけるスケーラブルなマルチモーダル検出とデータ生成のための新しいパラダイムを確立します。
Data&Codeはhttps://github.com/WeChatCV/WeVisionOneで入手できる。
関連論文リスト
- GAID: Frame-Level Gated Audio-Visual Integration with Directional Perturbation for Text-Video Retrieval [12.483734449829235]
GAIDは、テキストガイダンスの下でオーディオと視覚機能を統合するフレームワークである。
DASPは、構造を意識した摂動をテキスト埋め込みに注入し、マルチパス推論を発生させることなく、堅牢性と差別性を高める。
MSR-VTT, DiDeMo, LSMDC, VATEXによる実験では, 顕著な効率向上が得られた。
論文 参考訳(メタデータ) (2025-08-03T10:44:24Z) - DFR: A Decompose-Fuse-Reconstruct Framework for Multi-Modal Few-Shot Segmentation [21.536784761515968]
DFR(Decompose, Fuse, Reconstruct)は、マルチモーダルガイダンスを数発のセグメンテーションで効果的に活用するという課題に対処する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-07-22T16:21:32Z) - OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models [58.45517851437422]
VsTP(Visually-situated text parsing)は、自動化された文書理解の需要が高まり、最近顕著な進歩を遂げている。
既存のソリューションは、タスク固有のアーキテクチャと個々のタスクの目的に依存していることが多い。
本稿では,テキストスポッティング,キー情報抽出,テーブル認識,レイアウト解析など,VsTPの典型的なタスクを統一する汎用モデルであるOmni V2を紹介する。
論文 参考訳(メタデータ) (2025-02-22T09:32:01Z) - SEAL: Speech Embedding Alignment Learning for Speech Large Language Model with Retrieval-Augmented Generation [10.828717295018123]
本稿では,中間テキスト表現の必要性を解消する統合埋め込みフレームワークを提案する。
本モデルでは,従来の2段階法に比べて高い精度でパイプライン遅延を50%削減する。
論文 参考訳(メタデータ) (2025-01-26T15:04:02Z) - More Pictures Say More: Visual Intersection Network for Open Set Object Detection [4.206612461069489]
オープンセットオブジェクト検出(VINO)のための強力なDETRモデルであるVisual Intersection Networkを導入する。
VINOは、すべての時間ステップにまたがるカテゴリのセマンティックな交差を保存するために、マルチイメージのビジュアルバンクを構築する。
提案手法は,対象カテゴリ意味論と領域意味論のより正確な一致を保証するとともに,事前学習時間とリソース要求を著しく低減する。
論文 参考訳(メタデータ) (2024-08-26T05:52:35Z) - Harmonizing Visual Text Comprehension and Generation [31.605599298507293]
視覚テキストの理解と生成に長けた,統一的で汎用的なマルチモーダル生成モデルであるTextHarmonyを提案する。
我々は,多モード生成空間を部分的に分離して,モダリティ特化およびモダリティ非依存のLoRAエキスパートを集約するSlide-LoRAを提案する。
様々なベンチマークによる総合的な実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-23T10:11:56Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy
in Transformer [88.61312640540902]
明示的な構文に基づくテキストスポッティング変換フレームワーク(ESTextSpotter)を紹介する。
本モデルは,1つのデコーダ内におけるテキスト検出と認識のための識別的,インタラクティブな特徴をモデル化することにより,明示的な相乗効果を実現する。
実験結果から,本モデルが従来の最先端手法よりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-08-20T03:22:23Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。