論文の概要: VistaHop: Benchmarking Multi-hop Visual Reasoning for Visual DeepSearch
- arxiv url: http://arxiv.org/abs/2606.03273v1
- Date: Tue, 02 Jun 2026 07:37:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.842589
- Title: VistaHop: Benchmarking Multi-hop Visual Reasoning for Visual DeepSearch
- Title(参考訳): VistaHop: Visual DeepSearchのためのマルチホップビジュアル推論のベンチマーク
- Authors: Hang He, Chuhuai Yue, Chengqi Dong, Chengcheng Wan, Ting Su, Haiying Sun, Jiajun Chai, Xiaohan Wang, Guojun Yin,
- Abstract要約: 視覚中心の検索とマルチホップ視覚推論を評価するベンチマークであるVistaHopをVisual DeepSearchで紹介する。
VistaHopには、300の高解像度画像、25のビジュアル検索シナリオ、350のマルチホップQAタスクが含まれており、モデルが視覚アンカーからエビデンスチェーンに従うか、複数の画像グラウンドの推論パスに情報を融合させる必要がある。
さらに,テキスト検索,画像検索,画像トリミング,エビデンスベースの回答検証によるツール強化推論をサポートする統合評価環境であるVistaArenaを開発した。
- 参考スコア(独自算出の注目度): 38.23188690050009
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual DeepSearch requires multimodal large reasoning model (MLRM) agents to answer complex visual queries by repeatedly inspecting image regions, grounding intermediate reasoning in visual evidence, and connecting fine-grained clues across long reasoning chains. However, existing benchmarks mainly focus on single-step visual understanding or static image-question answering, offering limited evaluation of iterative image inspection, visual-anchor grounding, and multi-hop evidence integration. In this work, we introduce VistaHop, a benchmark for evaluating vision-centric search and multi-hop visual reasoning in Visual DeepSearch. VistaHop contains 300 high-resolution images, 25 visual search scenarios, and 350 multi-hop QA tasks that require models to follow evidence chains from visual anchors or fuse information across multiple image-grounded reasoning paths. We further develop VistaArena, a unified evaluation environment that supports tool-augmented reasoning with text search, image search, image cropping, and evidence-based answer validation. Experiments on seven representative MLRMs show that current models remain far from solving VistaHop: the best model, SenseNova-MARS-32B, achieves only 24.31% Pass@1. These results reveal persistent limitations in visual grounding, evidence revisiting, long-chain reasoning, and multi-anchor information fusion, highlighting the need for stronger benchmarks and training methods for Visual DeepSearch.
- Abstract(参考訳): Visual DeepSearchは、画像領域を何度も検査し、中間的推論を視覚的エビデンスに接地し、長い推論チェーンできめ細かい手がかりを接続することで、複雑なビジュアルクエリに応答するために、マルチモーダルな大推論モデル(MLRM)エージェントを必要とする。
しかし、既存のベンチマークは主に単一ステップの視覚的理解や静的な画像検索に重点を置いており、反復的な画像検査、視覚的アンカーグラウンド、マルチホップエビデンス統合の限定的な評価を提供している。
本研究では、視覚中心の検索とマルチホップ視覚推論を評価するベンチマークであるVistaHopをVisual DeepSearchで紹介する。
VistaHopには、300の高解像度画像、25のビジュアル検索シナリオ、350のマルチホップQAタスクが含まれており、モデルが視覚アンカーからエビデンスチェーンに従うか、複数の画像グラウンドの推論パスに情報を融合させる必要がある。
さらに,テキスト検索,画像検索,画像トリミング,エビデンスベースの回答検証によるツール強化推論をサポートする統合評価環境であるVistaArenaを開発した。
7つの代表的MLRMの実験によると、現在のモデルはVistaHopの解決には程遠いままである。
これらの結果は、ビジュアルグラウンド、エビデンスの再検討、ロングチェーン推論、マルチアンカー情報融合における永続的な制限を明らかにし、Visual DeepSearchのより強力なベンチマークとトレーニング方法の必要性を強調している。
関連論文リスト
- VisBrowse-Bench: Benchmarking Visual-Native Search for Multimodal Browsing Agents [27.574370658412864]
視覚ネイティブ検索のための新しいベンチマークVisBrowse-Benchを紹介した。
複数のドメインをカバーする169のVQAインスタンスを含んでいる。
探索過程におけるモデルの視覚的推論能力を評価する。
論文 参考訳(メタデータ) (2026-03-17T09:24:13Z) - Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models [79.77807330964576]
Vision-DeepResearchシステムは複雑なビジュアルテキストのファクトフィンディングに検索エンジンを使用する。
既存のベンチマークはビジュアル検索中心ではない。
2,000のVQAインスタンスからなるVision-DeepResearchベンチマーク(VDR-Bench)を構築した。
論文 参考訳(メタデータ) (2026-02-02T14:53:11Z) - InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search [48.79494320593913]
O3-Benchは、視覚的詳細に注意を払ってマルチモーダル推論を評価するために設計された新しいベンチマークである。
O3-Benchは、エージェントが複数のステップの推論を通じて、異なる画像領域から微妙な視覚情報をまとめることを必要とする、困難な問題を特徴としている。
視覚推論エージェント(vReasoner)と視覚検索エージェント(vSearcher)からなるマルチエージェントフレームワークであるInSight-o3を提案する。
論文 参考訳(メタデータ) (2025-12-21T14:23:07Z) - Deep But Reliable: Advancing Multi-turn Reasoning for Thinking with Images [53.373427633330515]
DRIMは,マルチモーダルCoTの画像について考える際に,深層かつ信頼性の高いマルチターン推論を可能にするモデルである。
高精細画像データセットに基づいて,高精細かつ検証可能な視覚的問合せ対を構築する。
SFTの段階では,ツールトラジェクトリをコールドスタートデータとして収集し,マルチターン推論パターンを導出する。
RLの段階では、冗長性を考慮したポリシー最適化を導入し、自己反射的推論パターンを開発するためのモデルにインセンティブを与える。
論文 参考訳(メタデータ) (2025-12-19T07:44:43Z) - VLMs have Tunnel Vision: Evaluating Nonlocal Visual Reasoning in Leading VLMs [18.349695067647012]
ビジュアル言語モデルは、VQAやチャート理解といった複雑なビジュアルタスクに優れていますが、最近の研究は、単純なテストで苦労していることを示唆しています。
非局所的な視覚的推論のための視覚言語モデルの能力を評価する。
その結果,生の視力の上昇にもかかわらず,現在のモデルでは中心的な視覚的推論能力が欠如していることが判明した。
論文 参考訳(メタデータ) (2025-07-04T23:15:52Z) - Grounded Reinforcement Learning for Visual Reasoning [51.94871616778874]
我々は、強化学習で訓練された視覚言語モデルViGoRL(Visually Grounded Reinforcement Learning)を紹介する。
人間の視覚的意思決定にインスパイアされたViGoRLは、空間的に根拠のある推論トレースを生成することを学ぶ。
この結果から,RLは汎用的な視覚的推論を用いたモデル入力の強力なパラダイムであることが示唆された。
論文 参考訳(メタデータ) (2025-05-29T17:20:26Z) - VisionReasoner: Unified Reasoning-Integrated Visual Perception via Reinforcement Learning [56.99825489208698]
複数の視覚知覚タスクの推論と解決が可能な統合フレームワークであるVisionReasonerを紹介する。
VisionReasonerは、視覚的な入力を分析するための推論機能を強化し、統一モデル内の様々な知覚タスクに対処する。
VisionReasonerは、検出、セグメンテーション、カウントという3つの重要な領域にまたがる10のタスクに対して評価する。
論文 参考訳(メタデータ) (2025-05-17T16:51:47Z) - Look, Remember and Reason: Grounded reasoning in videos with language
models [5.3445140425713245]
マルチテンポラル言語モデル(LM)は、最近ビデオ上の高レベル推論タスクにおいて有望な性能を示した。
オブジェクト検出,再識別,追跡など,低レベルなサロゲートタスクに対するLMエンドツーエンドのトレーニングを提案し,低レベルな視覚能力を備えたモデルを実現する。
我々は、ACRE、CATER、Some-Else、STARデータセットからの多様な視覚的推論タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-06-30T16:31:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。