論文の概要: Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology
- arxiv url: http://arxiv.org/abs/2507.07999v1
- Date: Thu, 10 Jul 2025 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.545083
- Title: Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology
- Title(参考訳): トレーサブル・エビデンスによる視覚的接地推論:評価と方法論
- Authors: Haochen Wang, Xiangtai Li, Zilong Huang, Anran Wang, Jiacong Wang, Tao Zhang, Jiani Zheng, Sule Bai, Zijian Kang, Jiashi Feng, Zhuochen Wang, Zhaoxiang Zhang,
- Abstract要約: TreeBenchは、ビジュアルグラウンド推論の診断ベンチマークである。
TreeVGRは、強化学習と共同でローカライゼーションと推論を監督する訓練パラダイムである。
- 参考スコア(独自算出の注目度): 87.65242416688146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Models like OpenAI-o3 pioneer visual grounded reasoning by dynamically referencing visual regions, just like human "thinking with images". However, no benchmark exists to evaluate these capabilities holistically. To bridge this gap, we propose TreeBench (Traceable Evidence Evaluation Benchmark), a diagnostic benchmark built on three principles: (1) focused visual perception of subtle targets in complex scenes, (2) traceable evidence via bounding box evaluation, and (3) second-order reasoning to test object interactions and spatial hierarchies beyond simple object localization. Prioritizing images with dense objects, we initially sample 1K high-quality images from SA-1B, and incorporate eight LMM experts to manually annotate questions, candidate options, and answers for each image. After three stages of quality control, TreeBench consists of 405 challenging visual question-answering pairs, even the most advanced models struggle with this benchmark, where none of them reach 60% accuracy, e.g., OpenAI-o3 scores only 54.87. Furthermore, we introduce TreeVGR (Traceable Evidence Enhanced Visual Grounded Reasoning), a training paradigm to supervise localization and reasoning jointly with reinforcement learning, enabling accurate localizations and explainable reasoning pathways. Initialized from Qwen2.5-VL-7B, it improves V* Bench (+16.8), MME-RealWorld (+12.6), and TreeBench (+13.4), proving traceability is key to advancing vision-grounded reasoning. The code is available at https://github.com/Haochen-Wang409/TreeVGR.
- Abstract(参考訳): OpenAI-o3のようなモデルは、視覚領域を動的に参照することで、視覚的基盤推論の先駆者となった。
しかし、これらの機能を評価するためのベンチマークは存在しない。
このギャップを埋めるために,(1)複雑な場面における微妙な対象の視覚的認識,(2)有界箱評価による追跡可能な証拠,(3)オブジェクトの相互作用や空間的階層性をテストするための2次推論という3つの原則に基づいて構築された診断ベンチマークであるTreeBench(追跡可能な証拠評価ベンチマーク)を提案する。
1Kの高画質画像をSA-1Bから抽出し、8人のLMM専門家を手動でアノテートする。
品質管理の3段階を経て、TreeBenchは405の挑戦的な視覚的質問応答ペアで構成され、最も先進的なモデルでさえこのベンチマークに苦戦している。
さらに,Traceable Evidence Enhanced Visual Grounded Reasoning (Traceable Evidence Enhanced Visual Grounded Reasoning)を導入した。
Qwen2.5-VL-7Bから初期化され、V*ベンチ(+16.8)、MME-RealWorld(+12.6)、TreeBench(+13.4)が改善された。
コードはhttps://github.com/Haochen-Wang409/TreeVGRで公開されている。
関連論文リスト
- Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。
ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。
基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文 参考訳(メタデータ) (2025-05-24T12:33:52Z) - Towards Omnidirectional Reasoning with 360-R1: A Dataset, Benchmark, and GRPO-based Method [8.039453341761538]
我々は,最初のデータセットであるOmniVQAを導入し,全方向視覚質問応答のための最初のベンチマークを行う。
最先端MLLMの評価結果から,全方向視覚質問応答の処理における限界が明らかとなった。
本研究ではQwen2.5-VL-Instructに基づく規則に基づく強化学習手法である360-R1を提案する。
論文 参考訳(メタデータ) (2025-05-20T10:55:26Z) - Are Multimodal Large Language Models Ready for Omnidirectional Spatial Reasoning? [66.88619941063048]
MLLM(Multimodal large language model)は全方向空間推論に対応しているのか?
OSR-Benchはこの設定のために特別に設計された最初のベンチマークである。
高忠実度パノラマ屋内シーンマップには、153,000以上の多様な質問応答ペアが含まれている。
GPT-4o, Gemini 1.5 Proを含む8つの最先端MLLMを評価し, ゼロショット設定で主要なオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2025-05-17T08:48:40Z) - MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models [7.422346909538787]
MapEvalは、3つの異なるタスクにわたる基礎モデルを評価するために設計されたベンチマークである。
空間的関係、ナビゲーション、旅行計画、現実世界の地図の相互作用をカバーしている。
ロングコンテキスト推論、APIインタラクション、ビジュアルマップ分析を扱うモデルが必要です。
論文 参考訳(メタデータ) (2024-12-31T07:20:32Z) - HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models [69.52245481329899]
本稿では,画像コンテキスト推論評価のためのベンチマークであるHalusionBenchを紹介する。
このベンチマークは、1129の質問と組み合わせた346の画像で構成されており、すべて人間の専門家によって細心の注意を払って作成されている。
HallusionBenchの評価では、15種類のモデルをベンチマークし、最先端のGPT-4Vによって達成された31.42%の質問対精度を強調した。
論文 参考訳(メタデータ) (2023-10-23T04:49:09Z) - Saliency-Bench: A Comprehensive Benchmark for Evaluating Visual Explanations [14.09795099827903]
Saliency-Benchは、複数のデータセットにわたるSaliencyメソッドによって生成された視覚的説明を評価するために設計された、新しいベンチマークスイートである。
ベンチマークには、視覚的説明の忠実さと整合性を評価するための標準化された統一された評価パイプラインが含まれている。
論文 参考訳(メタデータ) (2023-10-12T17:26:16Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。