Fugu-MT 論文翻訳(概要): Beyond Accuracy: Evaluating Grounded Visual Evidence in Thinking with Images

論文の概要: Beyond Accuracy: Evaluating Grounded Visual Evidence in Thinking with Images

arxiv url: http://arxiv.org/abs/2601.11633v1
Date: Wed, 14 Jan 2026 07:25:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-21 22:47:22.232475
Title: Beyond Accuracy: Evaluating Grounded Visual Evidence in Thinking with Images
Title（参考訳）: 正確性を超えて:画像を用いた思考における基盤的視覚的エビデンスの評価
Authors: Xuchen Li, Xuzhao Li, Renjie Pi, Shiyu Hu, Jian Zhao, Jiahui Gao,
Abstract要約: 我々は、忠実な視覚的推論を評価するために設計されたプロセス検証可能なベンチマークであるViEBenchを提案する。専門家による視覚的エビデンスを含む200個の高解像度画像を合成し、ViEBenchは難易度でタスクを知覚と推論の次元に分類する。実験の結果,(1)VLMは無関係な領域に接するにもかかわらず,正しい最終回答を導き出すことができ,(2)正しい証拠を見つけることはできるが,正確な結論に至らなかった。
参考スコア（独自算出の注目度）: 34.324634481264034
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the remarkable progress of Vision-Language Models (VLMs) in adopting "Thinking-with-Images" capabilities, accurately evaluating the authenticity of their reasoning process remains a critical challenge. Existing benchmarks mainly rely on outcome-oriented accuracy, lacking the capability to assess whether models can accurately leverage fine-grained visual cues for multi-step reasoning. To address these limitations, we propose ViEBench, a process-verifiable benchmark designed to evaluate faithful visual reasoning. Comprising 200 multi-scenario high-resolution images with expert-annotated visual evidence, ViEBench uniquely categorizes tasks by difficulty into perception and reasoning dimensions, where reasoning tasks require utilizing localized visual details with prior knowledge. To establish comprehensive evaluation criteria, we introduce a dual-axis matrix that provides fine-grained metrics through four diagnostic quadrants, enabling transparent diagnosis of model behavior across varying task complexities. Our experiments yield several interesting observations: (1) VLMs can sometimes produce correct final answers despite grounding on irrelevant regions, and (2) they may successfully locate the correct evidence but still fail to utilize it to reach accurate conclusions. Our findings demonstrate that ViEBench can serve as a more explainable and practical benchmark for comprehensively evaluating the effectiveness agentic VLMs. The codes will be released at: https://github.com/Xuchen-Li/ViEBench.
Abstract（参考訳）: シンキング・ウィズ・イメージ(Thinking-with-Images)機能の採用における視覚言語モデル(VLM)の顕著な進歩にもかかわらず、それらの推論プロセスの信頼性を正確に評価することは重要な課題である。既存のベンチマークは主に結果指向の精度に依存しており、モデルがマルチステップ推論のためにきめ細かい視覚的手がかりを正確に活用できるかどうかを評価する能力が欠如している。これらの制約に対処するために、忠実な視覚的推論を評価するために設計されたプロセス検証ベンチマークであるViEBenchを提案する。専門家による視覚的エビデンスを持つ200個の高解像度画像を合成し、ViEBenchは難易度によってタスクを認識と推論の次元に分類する。包括的評価基準を確立するために,4つの診断クアドラントを通した詳細な測定値を提供する2軸行列を導入し,タスクの複雑さの異なるモデル行動の透過的な診断を可能にした。実験の結果,(1)VLMは無関係な領域に接して正しい最終回答を得られること,(2)正しい証拠を見つけることはできるが,正確な結論に至らないこと,など,興味深い結果が得られた。以上の結果から, ViEBench は, エージェント VLM の有効性を総合的に評価する上で, より説明可能な, 実用的なベンチマークとなる可能性が示唆された。コードは、https://github.com/Xuchen-Li/ViEBench.comでリリースされる。

論文の概要: Beyond Accuracy: Evaluating Grounded Visual Evidence in Thinking with Images

関連論文リスト