論文の概要: Visual Textualization for Image Prompted Object Detection
- arxiv url: http://arxiv.org/abs/2506.23785v1
- Date: Mon, 30 Jun 2025 12:27:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.052135
- Title: Visual Textualization for Image Prompted Object Detection
- Title(参考訳): 画像プロンプトオブジェクト検出のための視覚的テクスチャ化
- Authors: Yongjian Wu, Yang Zhou, Jiya Saiyin, Bingzheng Wei, Yan Xu,
- Abstract要約: VisTex-OVLMは、オブジェクトレベルの視覚言語モデルを強化するために、テキスト機能空間にいくつかの視覚的な例を投影している。
VisTex-OVLMは、テキストプロンプトと共にOVLMを効果的にガイドする視覚トークンを生成する。
- 参考スコア(独自算出の注目度): 22.19518257638784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose VisTex-OVLM, a novel image prompted object detection method that introduces visual textualization -- a process that projects a few visual exemplars into the text feature space to enhance Object-level Vision-Language Models' (OVLMs) capability in detecting rare categories that are difficult to describe textually and nearly absent from their pre-training data, while preserving their pre-trained object-text alignment. Specifically, VisTex-OVLM leverages multi-scale textualizing blocks and a multi-stage fusion strategy to integrate visual information from visual exemplars, generating textualized visual tokens that effectively guide OVLMs alongside text prompts. Unlike previous methods, our method maintains the original architecture of OVLM, maintaining its generalization capabilities while enhancing performance in few-shot settings. VisTex-OVLM demonstrates superior performance across open-set datasets which have minimal overlap with OVLM's pre-training data and achieves state-of-the-art results on few-shot benchmarks PASCAL VOC and MSCOCO. The code will be released at https://github.com/WitGotFlg/VisTex-OVLM.
- Abstract(参考訳): テキスト特徴空間にいくつかの視覚的例を投影し、事前学習データからテキスト記述が困難でほとんど欠落している稀なカテゴリを検知し、事前学習したオブジェクト-テキストアライメントを保ちながら、オブジェクトレベル・ビジョン・ランゲージ・モデル(OVLM)の能力を高める。
具体的には、VisTex-OVLMは、マルチスケールのテキスト化ブロックと多段階融合戦略を利用して、視覚的見本からの視覚情報を統合し、テキストプロンプトとともにOVLMを効果的にガイドするテキスト化された視覚トークンを生成する。
従来の手法とは異なり,本手法はOVLMの本来のアーキテクチャを維持し,その一般化能力を維持しつつ,数ショット設定での性能向上を実現している。
VisTex-OVLMは、OVLMの事前トレーニングデータと最小限の重複を持つオープンセットデータセット間で優れたパフォーマンスを示し、数ショットベンチマークPASCAL VOCとMSCOCOで最先端の結果を得る。
コードはhttps://github.com/WitGotFlg/VisTex-OVLMでリリースされる。
関連論文リスト
- AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Understanding [63.09928907734156]
AlignVLMは視覚的特徴をテキスト埋め込みの重み付き平均値にマッピングする視覚テキストアライメント手法である。
実験の結果,AlignVLMは先行アライメント法と比較して最先端の性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T13:34:51Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - MATE: Meet At The Embedding -- Connecting Images with Long Texts [37.27283238166393]
Meet At The Embedding (MATE)は、大型言語モデル(LLM)とビジョン言語モデル(VLM)の機能を組み合わせた、新しいアプローチである。
我々は、VLMのテキストエンコーダを、長文の理解に優れたLLMベースのエンコーダに置き換える。
画像と長いテキストを接続するタスクを評価するために,2つの新たなクロスモーダル検索ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-06-26T14:10:00Z) - Vision-Aware Text Features in Referring Image Segmentation: From Object Understanding to Context Understanding [26.768147543628096]
本稿では,人間の認知プロセスに触発された対象と文脈の理解を強調する新しい枠組みを提案する。
提案手法は,3つのベンチマークデータセットにおいて,大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-12T16:38:48Z) - Towards Improving Document Understanding: An Exploration on
Text-Grounding via MLLMs [96.54224331778195]
本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。
我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。
提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-11-22T06:46:37Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。