論文の概要: MMErroR: A Benchmark for Erroneous Reasoning in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.03331v1
- Date: Tue, 06 Jan 2026 17:45:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.061941
- Title: MMErroR: A Benchmark for Erroneous Reasoning in Vision-Language Models
- Title(参考訳): MMErroR:視覚言語モデルにおける誤推論のベンチマーク
- Authors: Yang Shi, Yifeng Xie, Minzhe Guo, Liangsi Lu, Mingxuan Huang, Jingchao Wang, Zhihong Zhu, Boyan Xu, Zhiqi Huang,
- Abstract要約: 2,013個のサンプルを1つのコヒーレントな推論誤差に埋め込んだベンチマークであるMMErroRを提案する。
MMErroRは、回答の正しさに焦点を当てた既存のベンチマークとは異なり、プロセスレベル、エラー中心の評価をターゲットにしている。
最良モデル(Gemini-3.0-Pro)でさえ、66.47%のケースでエラーを分類する。
- 参考スコア(独自算出の注目度): 29.830224745428566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Vision-Language Models (VLMs) have improved performance in multi-modal learning, raising the question of whether these models truly understand the content they process. Crucially, can VLMs detect when a reasoning process is wrong and identify its error type? To answer this, we present MMErroR, a multi-modal benchmark of 2,013 samples, each embedding a single coherent reasoning error. These samples span 24 subdomains across six top-level domains, ensuring broad coverage and taxonomic richness. Unlike existing benchmarks that focus on answer correctness, MMErroR targets a process-level, error-centric evaluation that requires models to detect incorrect reasoning and classify the error type within both visual and linguistic contexts. We evaluate 20 advanced VLMs, even the best model (Gemini-3.0-Pro) classifies the error in only 66.47\% of cases, underscoring the challenge of identifying erroneous reasoning. Furthermore, the ability to accurately identify errors offers valuable insights into the capabilities of multi-modal reasoning models. Project Page: https://mmerror-benchmark.github.io
- Abstract(参考訳): 近年のVLM(Vision-Language Models)の進歩により、マルチモーダル学習のパフォーマンスが向上し、これらのモデルが実際に処理するコンテンツを理解しているかどうかという疑問が提起されている。
重要なのは、VLMは推論プロセスが間違っていることを検知し、そのエラータイプを特定することができるか?
そこで本研究では,2,013サンプルのマルチモーダルベンチマークであるMMErroRを提案する。
これらのサンプルは6つのトップレベルドメインの24のサブドメインにまたがっており、広範囲のカバレッジと分類学的富を保証している。
MMErroRは、答えの正しさに焦点を当てた既存のベンチマークとは異なり、間違った推論を検出し、視覚と言語の両方の文脈でエラータイプを分類する必要があるプロセスレベル、エラー中心の評価をターゲットにしている。
最良モデル(Gemini-3.0-Pro)でさえ,66.47 %のケースでエラーを分類し,誤推論を識別する難しさを浮き彫りにした。
さらに、エラーを正確に識別する能力は、マルチモーダル推論モデルの能力に関する貴重な洞察を与える。
Project Page: https://mmerror-benchmark.github.io
関連論文リスト
- FineGRAIN: Evaluating Failure Modes of Text-to-Image Models with Vision Language Model Judges [85.24983823102262]
本稿では,テキスト・トゥ・イメージ(T2I)モデルと視覚言語モデル(VLM)を評価するための構造化手法を提案する。
我々は,挑戦的プロンプトで条件付きT2Iモデルにより生成された画像において,VLMが27の特定の障害モードを識別できるかどうかを検証した。
以上の結果から,現在の測定値ではこれらの誤差を捉えるには不十分であることが示唆された。
論文 参考訳(メタデータ) (2025-12-01T19:46:03Z) - RIV: Recursive Introspection Mask Diffusion Vision Language Model [10.955541881166782]
マスク拡散に基づく視覚言語モデル(MDVLM)はマルチモーダル理解タスクにおいて顕著な進歩を遂げている。
これらのモデルでは、生成されたトークンのエラーを修正できないため、自己補正能力が欠如している。
本稿では,自己補正能力を備えた再帰検査マスク拡散視覚言語モデル(RIV)を提案する。
論文 参考訳(メタデータ) (2025-09-28T04:01:46Z) - Measuring Epistemic Humility in Multimodal Large Language Models [17.490955813494693]
HumbleBench は,MLLM が正解ではないが誤解を拒否する能力を評価するために設計された,新しい幻覚ベンチマークである。
我々は、微粒なシーングラフアノテーションを利用して、地中構造体と関係を抽出し、GPT-4-Turboに多重選択質問を生成する。
HumbleBenchは、現在の評価スイートにおける重要なギャップを埋め、安全クリティカルな設定におけるMLLMの信頼性をより現実的に測定する。
論文 参考訳(メタデータ) (2025-09-11T17:54:00Z) - Can Large Multimodal Models Actively Recognize Faulty Inputs? A Systematic Evaluation Framework of Their Input Scrutiny Ability [10.607081850023286]
ISEval(Input Scrutiny Ability Evaluation Framework)は,7つの欠陥のある前提と3つの評価指標を含む。
ほとんどのモデルは、ガイダンスなしで欠陥のあるテキストの前提を積極的に検出するのに苦労している。
これらの知見は、LMMの入力妥当性の積極的な検証を強化する緊急の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-08-06T02:13:46Z) - Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework [79.40678802098026]
数学の単語問題は、大規模言語モデルの推論能力を評価するための重要なベンチマークとなる。
現在のエラー分類法は静的および事前定義されたカテゴリに依存している。
本稿では,共通なエラーパターンを明示的なガイダンスとして組み込んだEAP(Error-Aware Prompting)を提案する。
論文 参考訳(メタデータ) (2025-01-26T16:17:57Z) - ProcessBench: Identifying Process Errors in Mathematical Reasoning [62.80402845414901]
本稿では,数学的推論における誤ったステップを識別する能力を測定するためのProcessBenchを紹介する。
ProcessBenchは3400のテストケースで構成され、主に競合とオリンピアードレベルの数学問題に焦点を当てている。
我々はProcessBenchについて、プロセス報酬モデル(PRM)と批判モデルという2種類のモデルを含む広範囲な評価を行う。
論文 参考訳(メタデータ) (2024-12-09T15:11:40Z) - Scalable Performance Analysis for Vision-Language Models [26.45624201546282]
統合視覚言語モデルは、様々なタスクセットに対して優れたパフォーマンスを示している。
本稿では、すでにアノテーション付きベンチマークに依存する、よりスケーラブルなソリューションを紹介します。
従来,CLIPは単語の袋のように振る舞い,名詞や動詞でより良く振る舞うことが確認された。
論文 参考訳(メタデータ) (2023-05-30T06:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。