論文の概要: Look Twice: Training-Free Evidence Highlighting in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2604.01280v1
- Date: Wed, 01 Apr 2026 18:00:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:09.666623
- Title: Look Twice: Training-Free Evidence Highlighting in Multimodal Large Language Models
- Title(参考訳): Look Twice: マルチモーダル大規模言語モデルにおけるトレーニング不要のエビデンスハイライト
- Authors: Marco Morini, Sara Sarto, Marcella Cornia, Lorenzo Baraldi,
- Abstract要約: 事前訓練されたMLLMがマルチモーダルなエビデンスをどのように利用するかを改善するトレーニング不要な推論時間フレームワークであるLook Twice(LoT)を紹介する。
LoTは、どの視覚領域と検索されたテキスト要素がクエリに関連するかを推定し、このハイライトされたエビデンスに条件付けられた回答を生成する。
複数の知識に基づくVQAベンチマークによる実験では、ゼロショットMLLMよりも一貫した改善が見られた。
- 参考スコア(独自算出の注目度): 27.14308995992974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Answering questions about images often requires combining visual understanding with external knowledge. Multimodal Large Language Models (MLLMs) provide a natural framework for this setting, but they often struggle to identify the most relevant visual and textual evidence when answering knowledge-intensive queries. In such scenarios, models must integrate visual cues with retrieved textual evidence that is often noisy or only partially relevant, while also localizing fine-grained visual information in the image. In this work, we introduce Look Twice (LoT), a training-free inference-time framework that improves how pretrained MLLMs utilize multimodal evidence. Specifically, we exploit the model attention patterns to estimate which visual regions and retrieved textual elements are relevant to a query, and then generate the answer conditioned on this highlighted evidence. The selected cues are highlighted through lightweight prompt-level markers that encourage the model to re-attend to the relevant evidence during generation. Experiments across multiple knowledge-based VQA benchmarks show consistent improvements over zero-shot MLLMs. Additional evaluations on vision-centric and hallucination-oriented benchmarks further demonstrate that visual evidence highlighting alone improves model performance in settings without textual context, all without additional training or architectural modifications. Source code will be publicly released.
- Abstract(参考訳): 画像に関する疑問に答えるには、視覚的理解と外部知識を組み合わせる必要があることが多い。
MLLM(Multimodal Large Language Models)は、この設定のための自然なフレームワークを提供するが、知識集約的なクエリに答える際に、最も関連性の高い視覚的およびテキスト的証拠を特定するのに苦労することが多い。
このようなシナリオでは、モデルが視覚的手がかりと、しばしばノイズまたは部分的に関係のあるテキスト証拠とを統合し、画像内のきめ細かい視覚情報をローカライズする必要がある。
本研究では,事前学習したMLLMがマルチモーダルなエビデンスを利用する方法を改善する,学習不要な推論時間フレームワークであるLook Twice(LoT)を紹介する。
具体的には、モデル注意パターンを利用して、どの視覚領域と検索されたテキスト要素がクエリに関連するかを推定し、このハイライトされたエビデンスに条件付き回答を生成する。
選択された手がかりは軽量なプロンプトレベルマーカーを通じて強調され、モデルが生成中に関連するエビデンスに再従属するように促される。
複数の知識に基づくVQAベンチマークによる実験では、ゼロショットMLLMよりも一貫した改善が見られた。
視覚中心および幻覚指向のベンチマークに関するさらなる評価は、視覚的エビデンスのみを強調することによって、テキストコンテキストのない設定におけるモデルパフォーマンスが向上し、追加のトレーニングやアーキテクチャの変更が不要になることを示している。
ソースコードは公開されます。
関連論文リスト
- KnowDR-REC: A Benchmark for Referring Expression Comprehension with Real-World Knowledge [1.5833270109954136]
本研究では,実世界の知識に基づいて構築されたKnowDR-RECを提案する。
我々は、KnowDR-REC上で16の最先端マルチモーダルモデルを評価し、既存のMLLMが知識駆動型視覚接地作業に苦戦していることを示す実験結果を得た。
論文 参考訳(メタデータ) (2025-08-12T19:43:44Z) - True Multimodal In-Context Learning Needs Attention to the Visual Context [69.63677595066012]
MLLM(Multimodal Large Language Models)は、新しいタスクに適応したMICL(Multimodal In-Context Learning)を実現する。
現在のMLLMは、視覚的手がかりを無視し、テキストパターンを過度に無視する傾向にあり、真のマルチモーダル適応よりも単なるテキスト模倣に繋がる。
視覚的コンテキストへのモデルへの参加を促す,効率的な微調整戦略であるDynamic Attention Reallocation (DARA)を紹介した。
論文 参考訳(メタデータ) (2025-07-21T17:08:18Z) - VoQA: Visual-only Question Answering [7.251596370310251]
本稿では,視覚のみの質問回答(VoQA)を提案する。
これは、視覚的に埋め込まれたテキストの質問を見つけ、認識し、推論するモデルを必要とする。
GRT-SFT(Guid Response Triggering Supervised Fine-tuning)は,視覚的入力に基づくステップバイステップ推論を行うための構造的微調整戦略である。
論文 参考訳(メタデータ) (2025-05-20T11:37:49Z) - Visual-RAG: Benchmarking Text-to-Image Retrieval Augmented Generation for Visual Knowledge Intensive Queries [30.692007887121278]
Retrieval-augmented Generation (RAG)は、知識集約的な質問に対処するために、外部知識で大きな言語モデルを拡張する。
Visual-RAGは、視覚的に根ざした知識集約的な質問を対象とする質問回答ベンチマークである。
我々は,5つのオープンソースと3つのプロプライエタリなMLLMを評価し,画像が拡張世代において強力な証拠となることを示す。
論文 参考訳(メタデータ) (2025-02-23T16:23:50Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。