論文の概要: Beyond Accuracy: Evaluating Grounded Visual Evidence in Thinking with Images
- arxiv url: http://arxiv.org/abs/2601.11633v1
- Date: Wed, 14 Jan 2026 07:25:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.232475
- Title: Beyond Accuracy: Evaluating Grounded Visual Evidence in Thinking with Images
- Title(参考訳): 正確性を超えて:画像を用いた思考における基盤的視覚的エビデンスの評価
- Authors: Xuchen Li, Xuzhao Li, Renjie Pi, Shiyu Hu, Jian Zhao, Jiahui Gao,
- Abstract要約: 我々は、忠実な視覚的推論を評価するために設計されたプロセス検証可能なベンチマークであるViEBenchを提案する。
専門家による視覚的エビデンスを含む200個の高解像度画像を合成し、ViEBenchは難易度でタスクを知覚と推論の次元に分類する。
実験の結果,(1)VLMは無関係な領域に接するにもかかわらず,正しい最終回答を導き出すことができ,(2)正しい証拠を見つけることはできるが,正確な結論に至らなかった。
- 参考スコア(独自算出の注目度): 34.324634481264034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the remarkable progress of Vision-Language Models (VLMs) in adopting "Thinking-with-Images" capabilities, accurately evaluating the authenticity of their reasoning process remains a critical challenge. Existing benchmarks mainly rely on outcome-oriented accuracy, lacking the capability to assess whether models can accurately leverage fine-grained visual cues for multi-step reasoning. To address these limitations, we propose ViEBench, a process-verifiable benchmark designed to evaluate faithful visual reasoning. Comprising 200 multi-scenario high-resolution images with expert-annotated visual evidence, ViEBench uniquely categorizes tasks by difficulty into perception and reasoning dimensions, where reasoning tasks require utilizing localized visual details with prior knowledge. To establish comprehensive evaluation criteria, we introduce a dual-axis matrix that provides fine-grained metrics through four diagnostic quadrants, enabling transparent diagnosis of model behavior across varying task complexities. Our experiments yield several interesting observations: (1) VLMs can sometimes produce correct final answers despite grounding on irrelevant regions, and (2) they may successfully locate the correct evidence but still fail to utilize it to reach accurate conclusions. Our findings demonstrate that ViEBench can serve as a more explainable and practical benchmark for comprehensively evaluating the effectiveness agentic VLMs. The codes will be released at: https://github.com/Xuchen-Li/ViEBench.
- Abstract(参考訳): シンキング・ウィズ・イメージ(Thinking-with-Images)機能の採用における視覚言語モデル(VLM)の顕著な進歩にもかかわらず、それらの推論プロセスの信頼性を正確に評価することは重要な課題である。
既存のベンチマークは主に結果指向の精度に依存しており、モデルがマルチステップ推論のためにきめ細かい視覚的手がかりを正確に活用できるかどうかを評価する能力が欠如している。
これらの制約に対処するために、忠実な視覚的推論を評価するために設計されたプロセス検証ベンチマークであるViEBenchを提案する。
専門家による視覚的エビデンスを持つ200個の高解像度画像を合成し、ViEBenchは難易度によってタスクを認識と推論の次元に分類する。
包括的評価基準を確立するために,4つの診断クアドラントを通した詳細な測定値を提供する2軸行列を導入し,タスクの複雑さの異なるモデル行動の透過的な診断を可能にした。
実験の結果,(1)VLMは無関係な領域に接して正しい最終回答を得られること,(2)正しい証拠を見つけることはできるが,正確な結論に至らないこと,など,興味深い結果が得られた。
以上の結果から, ViEBench は, エージェント VLM の有効性を総合的に評価する上で, より説明可能な, 実用的なベンチマークとなる可能性が示唆された。
コードは、https://github.com/Xuchen-Li/ViEBench.comでリリースされる。
関連論文リスト
- LTD-Bench: Evaluating Large Language Models by Letting Them Draw [57.237152905238084]
LTD-Benchは、大規模言語モデル(LLM)のブレークスルーベンチマークである。
LLMの評価を抽象的なスコアから直接観察可能な視覚出力に変換する。
LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
論文 参考訳(メタデータ) (2025-11-04T08:11:23Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - Probing Vision-Language Understanding through the Visual Entailment Task: promises and pitfalls [0.10923877073891446]
本研究では、マルチモーダル言語モデルにおける視覚言語理解の信頼性調査として、視覚的エンタテインメントタスクが果たす役割について検討する。
ゼロショット、少数ショット、微調整の設定で実験を行い、プロンプトデザインなどの要因がVEのパフォーマンスに与える影響について検討する。
微細チューニングは強い結果をもたらし、E-SNLI-VEデータセットで83.3%の精度を達成し、最先端のOFA-Xモデルを上回っている。
論文 参考訳(メタデータ) (2025-07-23T12:46:51Z) - VLMs have Tunnel Vision: Evaluating Nonlocal Visual Reasoning in Leading VLMs [18.349695067647012]
ビジュアル言語モデルは、VQAやチャート理解といった複雑なビジュアルタスクに優れていますが、最近の研究は、単純なテストで苦労していることを示唆しています。
非局所的な視覚的推論のための視覚言語モデルの能力を評価する。
その結果,生の視力の上昇にもかかわらず,現在のモデルでは中心的な視覚的推論能力が欠如していることが判明した。
論文 参考訳(メタデータ) (2025-07-04T23:15:52Z) - BYO-Eval: Build Your Own Dataset for Fine-Grained Visual Assessment of Multimodal Language Models [2.526146573337397]
眼科診断に触発された新しい評価手法を提案する。
合成画像のプロシージャ生成を用いて視覚特性の制御を行う。
この診断は、系統的なストレステストときめ細かい故障解析を可能にする。
論文 参考訳(メタデータ) (2025-06-05T12:43:10Z) - VisionReasoner: Unified Reasoning-Integrated Visual Perception via Reinforcement Learning [56.99825489208698]
複数の視覚知覚タスクの推論と解決が可能な統合フレームワークであるVisionReasonerを紹介する。
VisionReasonerは、視覚的な入力を分析するための推論機能を強化し、統一モデル内の様々な知覚タスクに対処する。
VisionReasonerは、検出、セグメンテーション、カウントという3つの重要な領域にまたがる10のタスクに対して評価する。
論文 参考訳(メタデータ) (2025-05-17T16:51:47Z) - Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [84.16442052968615]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。
RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論カテゴリに焦点を当てている。
オープンソースモデルとプロプライエタリモデルの両方を含む,9つの目立った視覚編集モデルを評価する実験を行った。
論文 参考訳(メタデータ) (2025-04-03T17:59:56Z) - A Hitchhikers Guide to Fine-Grained Face Forgery Detection Using Common Sense Reasoning [9.786907179872815]
視覚と言語の可能性は、いまだに偽造検出に過小評価されている。
顔偽造検出を視覚質問応答(VQA)タスクに変換する方法論が必要である。
このギャップに対処するために,従来の二項決定パラダイムから分岐する多段階的アプローチを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:16:40Z) - Freeview Sketching: View-Aware Fine-Grained Sketch-Based Image Retrieval [85.73149096516543]
微細スケッチベース画像検索(FG-SBIR)におけるスケッチ作成時の視点選択について検討する。
パイロットスタディでは、クエリスケッチがターゲットインスタンスと異なる場合、システムの苦労を強調している。
これを解決するために、ビューに依存しないタスクとビュー固有のタスクの両方をシームレスに収容するビューアウェアシステムを提案する。
論文 参考訳(メタデータ) (2024-07-01T21:20:44Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。