論文の概要: Beyond Accuracy: Evaluating Grounded Visual Evidence in Thinking with Images
- arxiv url: http://arxiv.org/abs/2601.11633v1
- Date: Wed, 14 Jan 2026 07:25:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.232475
- Title: Beyond Accuracy: Evaluating Grounded Visual Evidence in Thinking with Images
- Title(参考訳): 正確性を超えて:画像を用いた思考における基盤的視覚的エビデンスの評価
- Authors: Xuchen Li, Xuzhao Li, Renjie Pi, Shiyu Hu, Jian Zhao, Jiahui Gao,
- Abstract要約: 我々は、忠実な視覚的推論を評価するために設計されたプロセス検証可能なベンチマークであるViEBenchを提案する。
専門家による視覚的エビデンスを含む200個の高解像度画像を合成し、ViEBenchは難易度でタスクを知覚と推論の次元に分類する。
実験の結果,(1)VLMは無関係な領域に接するにもかかわらず,正しい最終回答を導き出すことができ,(2)正しい証拠を見つけることはできるが,正確な結論に至らなかった。
- 参考スコア(独自算出の注目度): 34.324634481264034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the remarkable progress of Vision-Language Models (VLMs) in adopting "Thinking-with-Images" capabilities, accurately evaluating the authenticity of their reasoning process remains a critical challenge. Existing benchmarks mainly rely on outcome-oriented accuracy, lacking the capability to assess whether models can accurately leverage fine-grained visual cues for multi-step reasoning. To address these limitations, we propose ViEBench, a process-verifiable benchmark designed to evaluate faithful visual reasoning. Comprising 200 multi-scenario high-resolution images with expert-annotated visual evidence, ViEBench uniquely categorizes tasks by difficulty into perception and reasoning dimensions, where reasoning tasks require utilizing localized visual details with prior knowledge. To establish comprehensive evaluation criteria, we introduce a dual-axis matrix that provides fine-grained metrics through four diagnostic quadrants, enabling transparent diagnosis of model behavior across varying task complexities. Our experiments yield several interesting observations: (1) VLMs can sometimes produce correct final answers despite grounding on irrelevant regions, and (2) they may successfully locate the correct evidence but still fail to utilize it to reach accurate conclusions. Our findings demonstrate that ViEBench can serve as a more explainable and practical benchmark for comprehensively evaluating the effectiveness agentic VLMs. The codes will be released at: https://github.com/Xuchen-Li/ViEBench.
- Abstract(参考訳): シンキング・ウィズ・イメージ(Thinking-with-Images)機能の採用における視覚言語モデル(VLM)の顕著な進歩にもかかわらず、それらの推論プロセスの信頼性を正確に評価することは重要な課題である。
既存のベンチマークは主に結果指向の精度に依存しており、モデルがマルチステップ推論のためにきめ細かい視覚的手がかりを正確に活用できるかどうかを評価する能力が欠如している。
これらの制約に対処するために、忠実な視覚的推論を評価するために設計されたプロセス検証ベンチマークであるViEBenchを提案する。
専門家による視覚的エビデンスを持つ200個の高解像度画像を合成し、ViEBenchは難易度によってタスクを認識と推論の次元に分類する。
包括的評価基準を確立するために,4つの診断クアドラントを通した詳細な測定値を提供する2軸行列を導入し,タスクの複雑さの異なるモデル行動の透過的な診断を可能にした。
実験の結果,(1)VLMは無関係な領域に接して正しい最終回答を得られること,(2)正しい証拠を見つけることはできるが,正確な結論に至らないこと,など,興味深い結果が得られた。
以上の結果から, ViEBench は, エージェント VLM の有効性を総合的に評価する上で, より説明可能な, 実用的なベンチマークとなる可能性が示唆された。
コードは、https://github.com/Xuchen-Li/ViEBench.comでリリースされる。
関連論文リスト
- VLMs have Tunnel Vision: Evaluating Nonlocal Visual Reasoning in Leading VLMs [18.349695067647012]
ビジュアル言語モデルは、VQAやチャート理解といった複雑なビジュアルタスクに優れていますが、最近の研究は、単純なテストで苦労していることを示唆しています。
非局所的な視覚的推論のための視覚言語モデルの能力を評価する。
その結果,生の視力の上昇にもかかわらず,現在のモデルでは中心的な視覚的推論能力が欠如していることが判明した。
論文 参考訳(メタデータ) (2025-07-04T23:15:52Z) - BYO-Eval: Build Your Own Dataset for Fine-Grained Visual Assessment of Multimodal Language Models [2.526146573337397]
眼科診断に触発された新しい評価手法を提案する。
合成画像のプロシージャ生成を用いて視覚特性の制御を行う。
この診断は、系統的なストレステストときめ細かい故障解析を可能にする。
論文 参考訳(メタデータ) (2025-06-05T12:43:10Z) - VisionReasoner: Unified Reasoning-Integrated Visual Perception via Reinforcement Learning [56.99825489208698]
複数の視覚知覚タスクの推論と解決が可能な統合フレームワークであるVisionReasonerを紹介する。
VisionReasonerは、視覚的な入力を分析するための推論機能を強化し、統一モデル内の様々な知覚タスクに対処する。
VisionReasonerは、検出、セグメンテーション、カウントという3つの重要な領域にまたがる10のタスクに対して評価する。
論文 参考訳(メタデータ) (2025-05-17T16:51:47Z) - Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [84.16442052968615]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。
RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論カテゴリに焦点を当てている。
オープンソースモデルとプロプライエタリモデルの両方を含む,9つの目立った視覚編集モデルを評価する実験を行った。
論文 参考訳(メタデータ) (2025-04-03T17:59:56Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。