論文の概要: Can Retrieval Heads See Images? Multimodal Retrieval Heads in Long-Context Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.27243v1
- Date: Tue, 26 May 2026 16:24:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.411092
- Title: Can Retrieval Heads See Images? Multimodal Retrieval Heads in Long-Context Vision-Language Models
- Title(参考訳): 検索頭は画像を見ることができるか? 長期視覚・言語モデルにおけるマルチモーダル検索頭
- Authors: Aaron Branson Cigres Li, Zhaowei Wang, Yu Zhao, Yiming Du, Haobo Li, Xiyu Ren, Ginny Wong, Simon See, Lishu Luo, Haodong Duan, Pasquale Minervini, Yangqiu Song,
- Abstract要約: 本稿では,質問トークンからテキストや視覚的証拠への注目を収集するマルチモーダル検索ヘッド検出手法を提案する。
マルチモーダル検索ヘッドはスパースであり,本質的であり,因果的に重要であることを示す。
これらの頭部は、視覚的にリッチな文書のランク付けに利用することもできる。
- 参考スコア(独自算出の注目度): 68.48918176385105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models increasingly rely on long-context modeling to reason over documents, hour-level videos, and long-horizon agent trajectories, requiring them to locate relevant evidence across interleaved text and images. Prior work has studied this behavior using retrieval heads in large language models, but its copy-based criterion does not directly apply when evidence appears in images. We introduce a multimodal retrieval head detection method that scores attention from question tokens to textual or visual evidence. With this method, we show that multimodal retrieval heads are sparse, intrinsic, and causally important: only 4.4-10.2% of attention heads account for 50% of the positive retrieval-score mass, and masking the top-5% selected heads drops MMLongBench-Doc from 48.2% to 5.7% and SlideVQA from 71.2% to 8.9%, while random-head masking is far less damaging. Further analysis shows that these heads are partly shared across modalities yet remain dynamic within each modality, with image retrieval heads changing more than text retrieval heads as context length and haystack modality change. Without further training, we find that these heads can also be used directly to rank visually rich documents: on MMDocIR, Qwen3-VL-8B selected-head scoring improves Recall@1 by 7.7/7.4 macro/micro points for page retrieval and 6.3/6.8 points for layout retrieval over the strongest reported baseline.
- Abstract(参考訳): 大きな視覚言語モデルは、文書、時間レベルのビデオ、長い水平エージェントの軌跡を推論するために、長いコンテキストモデリングにますます依存し、インターリーブされたテキストや画像間で関連する証拠を見つける必要がある。
以前の研究では、大規模な言語モデルにおける検索ヘッドを用いてこの振る舞いを研究してきたが、画像に証拠が現れると、そのコピーベースの基準は直接適用されない。
本稿では,質問トークンからテキストや視覚的証拠への注目を収集するマルチモーダル検索ヘッド検出手法を提案する。
この方法では、マルチモーダル検索ヘッドはスパース、内在的、因果的に重要であり、注目ヘッドの4.4-10.2%が正の検索スコア質量の50%を占め、トップ5%が選択されたヘッドをマスキングすると、MMLongBench-Docが48.2%から5.7%、SlideVQAが71.2%から8.9%に減少し、ランダムヘッドマスキングは遥かに損傷を受けない。
さらに分析したところ、これらのヘッドは各モダリティ内で部分的に共有されるが、画像検索ヘッドはテクスト検索ヘッドよりもコンテクスト長やヘイスタック・モダリティの変化として変化する。
MMDocIRでは、Qwen3-VL-8B選択ヘッドスコアは、ページ検索のためのRecall@1を7.7/7.4マクロ/マイクロポイント、最強のレポートベースライン上のレイアウト検索のための6.3/6.8ポイント改善する。
関連論文リスト
- MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents [57.32877731797049]
MultiHaystackは、大規模なクロスモーダル条件下での検索と推論の両方を評価するために設計された最初のベンチマークである。
モデルが対応するエビデンスを付与した場合,その性能は,全コーパスからそのエビデンスを取得するために必要な場合,急激に低下することがわかった。
論文 参考訳(メタデータ) (2026-03-05T21:43:02Z) - Bridging Latent Reasoning and Target-Language Generation via Retrieval-Transition Heads [33.242977481016375]
検索ヘッドは複数の言語で共有されることが多い。
Retrieval-Transitionヘッダは、特定のターゲット言語出力への遷移を管理する。
本研究は,対象言語へのマッピングに責任を負うアテンションヘッドを分離することにより,多言語LMの理解を深める。
論文 参考訳(メタデータ) (2026-02-25T22:28:50Z) - Pixel-Grounded Retrieval for Knowledgeable Large Multimodal Models [58.46663983451155]
PixSearchは、地域レベルの認識と検索強化推論を統合する、エンドツーエンドのLMM(Large Multimodal Model)である。
エンコーディング中、PixSearchは検索をトリガーする検索>トークンを出力し、クエリのモダリティ(テキスト、画像、リージョン)を選択し、ビジュアルクエリとして直接機能するピクセルレベルのマスクを生成する。
エゴセントリックでエンティティ中心のVQAベンチマークでは、PixSearchは事実整合性と一般化を大幅に改善する。
論文 参考訳(メタデータ) (2026-01-27T00:46:08Z) - VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understanding [49.07705729597171]
VisR-Benchは、長い文書における質問駆動型マルチモーダル検索のベンチマークである。
ベンチマークは、1.2Kドキュメントで35K以上の高品質なQAペアで構成されています。
テキストベースの手法,マルチモーダルエンコーダ,MLLMなど,さまざまな検索モデルを評価する。
論文 参考訳(メタデータ) (2025-08-10T21:44:43Z) - MIRACL-VISION: A Large, multilingual, visual document retrieval benchmark [1.8448587047759064]
MIRACL-VISIONは多言語視覚文書評価評価ベンチマークである。
MIRACL-VISIONは18の言語をカバーし、MIRACLデータセットの拡張である。
我々は,多言語機能に対する最先端のVLMベースの埋め込みモデルのギャップを観察する。
論文 参考訳(メタデータ) (2025-05-16T19:22:19Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Retrieval Head Mechanistically Explains Long-Context Factuality [56.78951509492645]
我々は,検索ヘッドをダブする特別なタイプの注意ヘッドが,主に情報検索に責任があることを実証した。
本研究は,検索ヘッドが思考の連鎖(CoT)推論に強く影響していることを示し,モデルが質問や以前生成した文脈を頻繁に参照する必要があることを示す。
我々は、幻覚の低減、推論の改善、KVキャッシュの圧縮に関する今後の研究を促進すると信じている。
論文 参考訳(メタデータ) (2024-04-24T00:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。