Fugu-MT 論文翻訳(概要): Look Twice: Training-Free Evidence Highlighting in Multimodal Large Language Models

論文の概要: Look Twice: Training-Free Evidence Highlighting in Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2604.01280v1
Date: Wed, 01 Apr 2026 18:00:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-03 14:21:09.666623
Title: Look Twice: Training-Free Evidence Highlighting in Multimodal Large Language Models
Title（参考訳）: Look Twice: マルチモーダル大規模言語モデルにおけるトレーニング不要のエビデンスハイライト
Authors: Marco Morini, Sara Sarto, Marcella Cornia, Lorenzo Baraldi,
Abstract要約: 事前訓練されたMLLMがマルチモーダルなエビデンスをどのように利用するかを改善するトレーニング不要な推論時間フレームワークであるLook Twice(LoT)を紹介する。 LoTは、どの視覚領域と検索されたテキスト要素がクエリに関連するかを推定し、このハイライトされたエビデンスに条件付けられた回答を生成する。複数の知識に基づくVQAベンチマークによる実験では、ゼロショットMLLMよりも一貫した改善が見られた。
参考スコア（独自算出の注目度）: 27.14308995992974
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Answering questions about images often requires combining visual understanding with external knowledge. Multimodal Large Language Models (MLLMs) provide a natural framework for this setting, but they often struggle to identify the most relevant visual and textual evidence when answering knowledge-intensive queries. In such scenarios, models must integrate visual cues with retrieved textual evidence that is often noisy or only partially relevant, while also localizing fine-grained visual information in the image. In this work, we introduce Look Twice (LoT), a training-free inference-time framework that improves how pretrained MLLMs utilize multimodal evidence. Specifically, we exploit the model attention patterns to estimate which visual regions and retrieved textual elements are relevant to a query, and then generate the answer conditioned on this highlighted evidence. The selected cues are highlighted through lightweight prompt-level markers that encourage the model to re-attend to the relevant evidence during generation. Experiments across multiple knowledge-based VQA benchmarks show consistent improvements over zero-shot MLLMs. Additional evaluations on vision-centric and hallucination-oriented benchmarks further demonstrate that visual evidence highlighting alone improves model performance in settings without textual context, all without additional training or architectural modifications. Source code will be publicly released.
Abstract（参考訳）: 画像に関する疑問に答えるには、視覚的理解と外部知識を組み合わせる必要があることが多い。 MLLM(Multimodal Large Language Models)は、この設定のための自然なフレームワークを提供するが、知識集約的なクエリに答える際に、最も関連性の高い視覚的およびテキスト的証拠を特定するのに苦労することが多い。このようなシナリオでは、モデルが視覚的手がかりと、しばしばノイズまたは部分的に関係のあるテキスト証拠とを統合し、画像内のきめ細かい視覚情報をローカライズする必要がある。本研究では,事前学習したMLLMがマルチモーダルなエビデンスを利用する方法を改善する,学習不要な推論時間フレームワークであるLook Twice(LoT)を紹介する。具体的には、モデル注意パターンを利用して、どの視覚領域と検索されたテキスト要素がクエリに関連するかを推定し、このハイライトされたエビデンスに条件付き回答を生成する。選択された手がかりは軽量なプロンプトレベルマーカーを通じて強調され、モデルが生成中に関連するエビデンスに再従属するように促される。複数の知識に基づくVQAベンチマークによる実験では、ゼロショットMLLMよりも一貫した改善が見られた。視覚中心および幻覚指向のベンチマークに関するさらなる評価は、視覚的エビデンスのみを強調することによって、テキストコンテキストのない設定におけるモデルパフォーマンスが向上し、追加のトレーニングやアーキテクチャの変更が不要になることを示している。ソースコードは公開されます。

論文の概要: Look Twice: Training-Free Evidence Highlighting in Multimodal Large Language Models

関連論文リスト