論文の概要: Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2601.22060v1
- Date: Thu, 29 Jan 2026 17:58:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.066054
- Title: Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models
- Title(参考訳): Vision-DeepResearch: マルチモーダル大規模言語モデルにおけるDeepResearch機能の向上
- Authors: Wenxuan Huang, Yu Zeng, Qiuchen Wang, Zhen Fang, Shaosheng Cao, Zheng Chu, Qingyu Yin, Shuang Chen, Zhenfei Yin, Lin Chen, Zehui Chen, Yao Hu, Philip Torr, Feng Zhao, Wanli Ouyang,
- Abstract要約: Vision-DeepResearchは、数十の推論ステップと数百のエンジンインタラクションをサポートしている。
私たちのVision-DeepResearchは、数十の推論ステップと数百のエンジンインタラクションをサポートします。
- 参考スコア(独自算出の注目度): 87.99592946216137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have achieved remarkable success across a broad range of vision tasks. However, constrained by the capacity of their internal world knowledge, prior work has proposed augmenting MLLMs by ``reasoning-then-tool-call'' for visual and textual search engines to obtain substantial gains on tasks requiring extensive factual information. However, these approaches typically define multimodal search in a naive setting, assuming that a single full-level or entity-level image query and few text query suffices to retrieve the key evidence needed to answer the question, which is unrealistic in real-world scenarios with substantial visual noise. Moreover, they are often limited in the reasoning depth and search breadth, making it difficult to solve complex questions that require aggregating evidence from diverse visual and textual sources. Building on this, we propose Vision-DeepResearch, which proposes one new multimodal deep-research paradigm, i.e., performs multi-turn, multi-entity and multi-scale visual and textual search to robustly hit real-world search engines under heavy noise. Our Vision-DeepResearch supports dozens of reasoning steps and hundreds of engine interactions, while internalizing deep-research capabilities into the MLLM via cold-start supervision and RL training, resulting in a strong end-to-end multimodal deep-research MLLM. It substantially outperforming existing multimodal deep-research MLLMs, and workflows built on strong closed-source foundation model such as GPT-5, Gemini-2.5-pro and Claude-4-Sonnet. The code will be released in https://github.com/Osilly/Vision-DeepResearch.
- Abstract(参考訳): MLLM(Multimodal large language model)は、幅広い視覚タスクにおいて顕著な成功を収めている。
しかし、その内的知識の容量に制約されるため、従来の研究では、視覚的・テキスト的検索エンジンに対してMLLMを'reasoning-then-tool-call'で拡張し、広範囲な事実情報を必要とするタスクに対して実質的な利得を得ることが提案されている。
しかし、これらのアプローチは一般的に、単一のフルレベルまたはエンティティレベルのイメージクエリと少数のテキストクエリが、実際の視覚ノイズを伴うシナリオでは非現実的である質問に答えるのに必要な重要なエビデンスを取得するのに十分であると仮定して、ナイーブな設定でマルチモーダル検索を定義する。
さらに、それらはしばしば推論深度や探索幅に制限されており、様々な視覚的・テキスト的情報源から証拠を集約する必要がある複雑な問題を解くことは困難である。
そこで本研究では,マルチターン,マルチエンタリティ,マルチスケールの視覚・テキスト検索を行うマルチモーダルディープリサーチパラダイムを提案する。
私たちのVision-DeepResearchは、数十の推論ステップと数百のエンジンインタラクションをサポートします。一方、コールドスタート監視とRLトレーニングを通じて、ディープリサーチ機能をMLLMに内部化することで、強力なエンドツーエンドのマルチモーダルディープリサーチMLLMを実現します。
GPT-5、Gemini-2.5-pro、Claude-4-Sonnetのような強力なクローズドソース基盤モデル上に構築されたワークフローは、既存のマルチモーダルディープリサーチMLLMよりも大幅に優れていた。
コードはhttps://github.com/Osilly/Vision-DeepResearchで公開される。
関連論文リスト
- DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search [61.77858432092777]
DeepMMSearch-R1は,オンデマンドでマルチターンWeb検索が可能な,最初のマルチモーダルな大規模言語モデルである。
DeepMMSearch-R1は、画像検索をより効果的にするために、入力画像の関連する作物に基づいてWeb検索を開始することができる。
我々は、アプローチの優位性を実証するために、知識集約型ベンチマークを幅広く実施する。
論文 参考訳(メタデータ) (2025-10-14T17:59:58Z) - MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々のモデルMM-Embedはマルチモーダル検索ベンチマークM-BEIR上で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - Can ChatGPT Detect DeepFakes? A Study of Using Multimodal Large Language Models for Media Forensics [46.99625341531352]
AI生成メディアコンテンツを指すDeepFakesは、偽情報の手段としての利用が懸念されている。
本稿では,DeepFake検出におけるマルチモーダル大言語モデル(LLM)の機能について検討する。
論文 参考訳(メタデータ) (2024-03-21T01:57:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。