論文の概要: AutoV: Learning to Retrieve Visual Prompt for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2506.16112v1
- Date: Thu, 19 Jun 2025 08:02:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.98501
- Title: AutoV: Learning to Retrieve Visual Prompt for Large Vision-Language Models
- Title(参考訳): AutoV: 大規模ビジョンランゲージモデルのためのビジュアルプロンプト検索の学習
- Authors: Yuan Zhang, Chun-Kai Fan, Tao Huang, Ming Lu, Sicheng Yu, Junwen Pan, Kuan Cheng, Qi She, Shanghang Zhang,
- Abstract要約: 様々な候補から最適な視覚刺激を自動選択するTextbfAutoVを提案する。
大規模言語モデルに視覚的プロンプトのセットを入力し、モデルが生成した予測損失に応じてそれらをランク付けする。
ランキングを監視信号として使用し、LVLMの様々な視覚的プロンプトから最適な視覚的プロンプトを自動選択するようAutoVを訓練する。
- 参考スコア(独自算出の注目度): 37.139886111357015
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Inspired by text prompts in large language models (LLMs), visual prompts have been explored to enhance the reasoning capabilities of large vision-language models (LVLMs). Current methods design heuristic visual prompts, such as overlaying a text-query-guided attention heatmap on the original input image. However, designing effective prompts manually is challenging and time-consuming, and it often fails to explore the benefits of different visual prompts, leading to sub-optimal performance. To this end, we propose \textbf{AutoV} that learns to automatically select the optimal visual prompt from various candidates based on given textual queries and the input image. To train AutoV, we developed an automatic data collection and labeling pipeline that evaluates various visual prompts with a pre-trained LVLM. We input a set of visual prompts into the LVLM and rank them according to the prediction losses generated by the model. Using the ranking as a supervision signal, we train AutoV to automatically choose the optimal visual prompt from various visual prompts for LVLMs. Experimental results indicate that AutoV enhances the performance of various LVLMs across multiple popular image understanding tasks. For instance, LLaVA-OV with AutoV achieves $\textbf{1.7}\%$ accuracy gain on LLaVA$^{\text{Wild}}$, and AutoV boosts Qwen2.5-VL by $\textbf{1.9}\%$ on MMMU, highlighting its potential as an optimal visual prompting method for LVLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)のテキストプロンプトにインスパイアされた視覚的プロンプトは、大規模視覚言語モデル(LVLM)の推論能力を高めるために研究されている。
現在の方法では、テキストクエリ誘導されたアテンションヒートマップを元の入力画像にオーバーレイするなど、ヒューリスティックな視覚的プロンプトを設計する。
しかし、効果的なプロンプトを手動で設計することは難しく、時間を要する。
そこで本稿では,与えられたテキストクエリと入力画像に基づいて,様々な候補から最適な視覚的プロンプトを自動選択する方法を提案する。
AutoVをトレーニングするために,事前学習したLVLMを用いて様々な視覚的プロンプトを評価する自動データ収集・ラベリングパイプラインを開発した。
我々はLVLMに一連の視覚的プロンプトを入力し、モデルが生成した予測損失に応じてそれらをランク付けする。
ランキングを監視信号として使用し、LVLMの様々な視覚的プロンプトから最適な視覚的プロンプトを自動選択するようAutoVを訓練する。
実験結果から,AutoVは複数の画像理解タスクにまたがる様々なLVLMの性能を向上させることが示唆された。
例えば、AutoV の LLaVA-OV は LLaVA$^{\text{Wild}}$ で$\textbf{1.7}\% の精度向上を実現し、AutoV は Qwen2.5-VL を MMMU で$\textbf{1.9}\% で押し上げ、LVLM の最適な視覚的プロンプト法としての可能性を強調している。
関連論文リスト
- Semantic-Clipping: Efficient Vision-Language Modeling with Semantic-Guidedd Visual Selection [53.558449071113245]
Vision-Language Models (VLM) は、アライメントされたビジュアルエンコーダを利用して、画像をビジュアルトークンに変換することで、バックボーン大言語モデル (LLM) によるテキストと同じように処理することができる。
視覚言語モデリングの最近の進歩は、すべての符号化されたサブイメージをモデルに供給する画像トリミング技術を導入している。
本稿では,既存のVLMとシームレスに統合し,細粒度処理能力を高める軽量で普遍的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-14T18:33:31Z) - Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images [7.823336661261962]
VLM(Large Vision-Language Models)は、画像の内容を無視し、言語モデルに過剰に依存する傾向にある。
本稿では,S-VCO(Symmetrical Visual Contrastive Optimization)を提案する。
論文 参考訳(メタデータ) (2025-02-19T18:05:42Z) - Attention Prompting on Image for Large Vision-Language Models [63.794304207664176]
本稿では,画像上の注意喚起という新しいプロンプト手法を提案する。
我々は,CLIPのような補助モデルを用いて,テキストクエリに依存する入力画像に対するアテンションヒートマップを生成する。
各種バイソン言語ベンチマークの実験により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-09-25T17:59:13Z) - Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。
本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。
我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文 参考訳(メタデータ) (2024-08-09T12:13:01Z) - Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning [59.13366859237086]
大規模視覚言語(VL)モデルを効率的に構築するための現在のソリューションは、2段階のパラダイムに従う。
視覚情報に関連するタスクに対処する際の言語モデルを容易にする追加知識として視覚的プロンプトを考察する。
本稿では,視覚的知識注入のためのFFNの重み付けにより視覚的プロンプトを記憶する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-09T08:23:20Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。