論文の概要: FOCUS: Internal MLLM Representations for Efficient Fine-Grained Visual Question Answering
- arxiv url: http://arxiv.org/abs/2506.21710v1
- Date: Thu, 26 Jun 2025 18:51:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:22.978283
- Title: FOCUS: Internal MLLM Representations for Efficient Fine-Grained Visual Question Answering
- Title(参考訳): FOCUS:高精細度視覚質問応答のための内部MLLM表現法
- Authors: Liangyu Zhong, Fabio Rosenthal, Joachim Sicking, Fabian Hüger, Thorsten Bagdonat, Hanno Gottschalk, Leo Schwinn,
- Abstract要約: 我々は、最も関連性の高い画像領域の探索をガイドする、FOCUSと呼ばれる訓練不要な視覚的収穫法を提案する。
FOCUSは4つの細粒度VQAデータセットと2種類のMLLMに対して高いパフォーマンスを実現している。
精度と効率の両面で人気の高い3つのビジュアルトリミング法を上回り、最高のパフォーマンスのベースラインであるZoomEyeに匹敵する。
- 参考スコア(独自算出の注目度): 5.840924060437216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Multimodal Large Language Models (MLLMs) offer strong perception and reasoning capabilities for image-text input, Visual Question Answering (VQA) focusing on small image details still remains a challenge. Although visual cropping techniques seem promising, recent approaches have several limitations: the need for task-specific fine-tuning, low efficiency due to uninformed exhaustive search, or incompatibility with efficient attention implementations. We address these shortcomings by proposing a training-free visual cropping method, dubbed FOCUS, that leverages MLLM-internal representations to guide the search for the most relevant image region. This is accomplished in four steps: first, we identify the target object(s) in the VQA prompt; second, we compute an object relevance map using the key-value (KV) cache; third, we propose and rank relevant image regions based on the map; and finally, we perform the fine-grained VQA task using the top-ranked region. As a result of this informed search strategy, FOCUS achieves strong performance across four fine-grained VQA datasets and two types of MLLMs. It outperforms three popular visual cropping methods in both accuracy and efficiency, and matches the best-performing baseline, ZoomEye, while requiring 3 - 6.5 x less compute.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は画像テキスト入力に対して強い知覚と推論機能を提供するが、小さな画像の詳細に焦点を当てた視覚質問回答(VQA)は依然として課題である。
視覚的収穫技術は有望に思われるが、近年のアプローチでは、タスク固有の微調整の必要性、インフォームド・サーチによる低効率、効率的な注意実装との互換性など、いくつかの制限がある。
我々は、MLLM内部表現を利用して、最も関連性の高い画像領域の探索をガイドする、FOCUSと呼ばれるトレーニング不要のビジュアルトリミング手法を提案することで、これらの欠点に対処する。
まず、VQAプロンプト内の対象オブジェクトを識別し、次に、キー値(KV)キャッシュを用いてオブジェクト関連マップを計算し、次に、マップに基づいて関連画像領域を提案し、ランク付けし、最後に、上位領域を用いて細かなVQAタスクを実行する。
この情報検索戦略により、FOCUSは4つの細粒度VQAデータセットと2種類のMLLMに対して高い性能を達成する。
精度と効率の両方で3つの一般的な視覚的収穫法を上回り、最高性能の基準であるZoomEyeと一致し、3~6.5倍の計算量を必要とする。
関連論文リスト
- Semantic-Clipping: Efficient Vision-Language Modeling with Semantic-Guidedd Visual Selection [53.558449071113245]
Vision-Language Models (VLM) は、アライメントされたビジュアルエンコーダを利用して、画像をビジュアルトークンに変換することで、バックボーン大言語モデル (LLM) によるテキストと同じように処理することができる。
視覚言語モデリングの最近の進歩は、すべての符号化されたサブイメージをモデルに供給する画像トリミング技術を導入している。
本稿では,既存のVLMとシームレスに統合し,細粒度処理能力を高める軽量で普遍的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-14T18:33:31Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Probing Visual Language Priors in VLMs [51.016683265437536]
我々は,意図的に分布外画像を特徴付けるベンチマークであるViLPを紹介した。
ViLPの各質問には、3つの潜在的な答えと3つの対応するイメージが結合される。
本稿では,モデルが新たなVQAデータを生成し,ピクセルレベルおよびセマンティックな汚職を適用して,自己学習のための「良いバッド」画像ペアを生成する自己改善フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-31T17:54:29Z) - Attention Prompting on Image for Large Vision-Language Models [63.794304207664176]
本稿では,画像上の注意喚起という新しいプロンプト手法を提案する。
我々は,CLIPのような補助モデルを用いて,テキストクエリに依存する入力画像に対するアテンションヒートマップを生成する。
各種バイソン言語ベンチマークの実験により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-09-25T17:59:13Z) - Towards Perceiving Small Visual Details in Zero-shot Visual Question
Answering with Multimodal LLMs [12.598351373932234]
MLLMは画像の細部だけでなく細部までも知覚できるかどうかを検討する。
視覚的質問に対する回答におけるゼロショット精度は,視覚的対象の大きさに非常に敏感であることを示す。
MLLMのゼロショット性能を改善するために,5つの視覚的トリミング法を提案する。
論文 参考訳(メタデータ) (2023-10-24T17:48:04Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。
我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。
提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文 参考訳(メタデータ) (2023-07-26T12:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。