論文の概要: Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2602.02185v1
- Date: Mon, 02 Feb 2026 14:53:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.22992
- Title: Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models
- Title(参考訳): Vision-DeepResearchベンチマーク: マルチモーダル大言語モデルにおける視覚とテキスト検索の再考
- Authors: Yu Zeng, Wenxuan Huang, Zhen Fang, Shuang Chen, Yufan Shen, Yishuo Cai, Xiaoman Wang, Zhenfei Yin, Lin Chen, Zehui Chen, Shiting Huang, Yiming Zhao, Yao Hu, Philip Torr, Wanli Ouyang, Shaosheng Cao,
- Abstract要約: Vision-DeepResearchシステムは複雑なビジュアルテキストのファクトフィンディングに検索エンジンを使用する。
既存のベンチマークはビジュアル検索中心ではない。
2,000のVQAインスタンスからなるVision-DeepResearchベンチマーク(VDR-Bench)を構築した。
- 参考スコア(独自算出の注目度): 79.77807330964576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have advanced VQA and now support Vision-DeepResearch systems that use search engines for complex visual-textual fact-finding. However, evaluating these visual and textual search abilities is still difficult, and existing benchmarks have two major limitations. First, existing benchmarks are not visual search-centric: answers that should require visual search are often leaked through cross-textual cues in the text questions or can be inferred from the prior world knowledge in current MLLMs. Second, overly idealized evaluation scenario: On the image-search side, the required information can often be obtained via near-exact matching against the full image, while the text-search side is overly direct and insufficiently challenging. To address these issues, we construct the Vision-DeepResearch benchmark (VDR-Bench) comprising 2,000 VQA instances. All questions are created via a careful, multi-stage curation pipeline and rigorous expert review, designed to assess the behavior of Vision-DeepResearch systems under realistic real-world conditions. Moreover, to address the insufficient visual retrieval capabilities of current MLLMs, we propose a simple multi-round cropped-search workflow. This strategy is shown to effectively improve model performance in realistic visual retrieval scenarios. Overall, our results provide practical guidance for the design of future multimodal deep-research systems. The code will be released in https://github.com/Osilly/Vision-DeepResearch.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は高度なVQAを持ち、複雑なビジュアルテキストのファクトフィンディングに検索エンジンを使用するVision-DeepResearchシステムをサポートしている。
しかし、これらの視覚的およびテキスト的検索能力の評価は依然として困難であり、既存のベンチマークには2つの大きな制限がある。
まず、既存のベンチマークはビジュアル検索中心ではない:ビジュアル検索を必要とする答えは、テキスト質問のクロステキストの手がかりによってしばしばリークされるか、現在のMLLMにおける以前の世界の知識から推測される。
第二に、過度に理想化された評価シナリオ: 画像検索側では、必要となる情報はしばしば、全画像とのほぼ正確なマッチングによって得ることができ、テキスト検索側は過度に直接的で、不十分に困難である。
これらの問題に対処するため、2000のVQAインスタンスからなるVision-DeepResearchベンチマーク(VDR-Bench)を構築した。
すべての質問は、実世界の現実的な条件下でのビジョン-ディープリサーチシステムの振る舞いを評価するために設計された、慎重に多段階のキュレーションパイプラインと厳密な専門家レビューを通じて作成されます。
さらに,現在のMLLMの視覚的検索能力の不足に対処するため,簡易なマルチラウンドトリプ検索ワークフローを提案する。
この戦略は,現実的な視覚的検索シナリオにおけるモデル性能を効果的に向上することを示す。
全体として,本研究は将来のマルチモーダルディープリサーチシステムの設計のための実践的なガイダンスを提供する。
コードはhttps://github.com/Osilly/Vision-DeepResearchで公開される。
関連論文リスト
- Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models [87.99592946216137]
Vision-DeepResearchは、数十の推論ステップと数百のエンジンインタラクションをサポートしている。
私たちのVision-DeepResearchは、数十の推論ステップと数百のエンジンインタラクションをサポートします。
論文 参考訳(メタデータ) (2026-01-29T17:58:40Z) - DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search [61.77858432092777]
DeepMMSearch-R1は,オンデマンドでマルチターンWeb検索が可能な,最初のマルチモーダルな大規模言語モデルである。
DeepMMSearch-R1は、画像検索をより効果的にするために、入力画像の関連する作物に基づいてWeb検索を開始することができる。
我々は、アプローチの優位性を実証するために、知識集約型ベンチマークを幅広く実施する。
論文 参考訳(メタデータ) (2025-10-14T17:59:58Z) - Developing Visual Augmented Q&A System using Scalable Vision Embedding Retrieval & Late Interaction Re-ranker [0.0]
本稿では,視覚検索プロセスのスケーラビリティと効率を向上するための実用的アプローチを,性能品質を損なうことなく検討する。
本稿では,広く採用されているハイブリッド検索(メタメタと埋め込み)と,遅延インタラクションリランカの状態を利用して,最適なマッチングページを検索する多段階カスタム実装を提案する。
論文 参考訳(メタデータ) (2025-07-16T16:27:05Z) - MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。
本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文 参考訳(メタデータ) (2025-06-25T17:59:42Z) - A Multi-Granularity Retrieval Framework for Visually-Rich Documents [4.804551482123172]
本稿では,MMDocIRとM2KRの2つのベンチマークタスクに適した,統一されたマルチグラニュラリティマルチモーダル検索フレームワークを提案する。
提案手法は,階層型符号化戦略,モダリティ対応検索機構,視覚言語モデル(VLM)に基づく候補フィルタリングを統合する。
本フレームワークは,タスク固有の微調整を必要とせずに,堅牢な性能を示す。
論文 参考訳(メタデータ) (2025-05-01T02:40:30Z) - MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々のモデルMM-Embedはマルチモーダル検索ベンチマークM-BEIR上で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。