論文の概要: MagiC: Evaluating Multimodal Cognition Toward Grounded Visual Reasoning
- arxiv url: http://arxiv.org/abs/2507.07297v1
- Date: Wed, 09 Jul 2025 21:44:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.213172
- Title: MagiC: Evaluating Multimodal Cognition Toward Grounded Visual Reasoning
- Title(参考訳): MagiC: 接地型ビジュアル推論に向けたマルチモーダル認知の評価
- Authors: Chengfei Wu, Ronald Seoh, Bingxuan Li, Liqiang Zhang, Fengrong Han, Dan Goldwasser,
- Abstract要約: 我々は,マルチモーダル認知を評価するための総合的なベンチマークであるMagiCを紹介する。
我々は,最終回答正当性,推論妥当性,接地忠実度,自己補正能力の4次元にわたる7Bから70Bパラメータを含む15の視覚言語モデルを評価する。
- 参考スコア(独自算出の注目度): 15.17428354380373
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large vision-language models have led to impressive performance in visual question answering and multimodal reasoning. However, it remains unclear whether these models genuinely perform grounded visual reasoning or rely on superficial patterns and dataset biases. In this work, we introduce MagiC, a comprehensive benchmark designed to evaluate grounded multimodal cognition, assessing not only answer accuracy but also the quality of step-by-step reasoning and its alignment with relevant visual evidence. Our benchmark includes approximately 5,500 weakly supervised QA examples generated from strong model outputs and 900 human-curated examples with fine-grained annotations, including answers, rationales, and bounding box groundings. We evaluate 15 vision-language models ranging from 7B to 70B parameters across four dimensions: final answer correctness, reasoning validity, grounding fidelity, and self-correction ability. MagiC further includes diagnostic settings to probe model robustness under adversarial visual cues and assess their capacity for introspective error correction. We introduce new metrics such as MagiScore and StepSense, and provide comprehensive analyses that reveal key limitations and opportunities in current approaches to grounded visual reasoning.
- Abstract(参考訳): 大規模視覚言語モデルの最近の進歩は、視覚的質問応答やマルチモーダル推論において顕著なパフォーマンスをもたらしている。
しかし、これらのモデルが実際に基底となる視覚的推論を行うのか、表面的なパターンやデータセットのバイアスに依存しているのかは定かではない。
本研究は,マルチモーダル認知度を評価するための総合的なベンチマークであるMagiCを紹介し,回答精度だけでなく,ステップバイステップ推論の品質や,関連する視覚的証拠との整合性も評価する。
我々のベンチマークには、強いモデル出力から生成される約5,500の弱い教師付きQA例と、回答、合理性、バウンディングボックスグラウンドを含む細かいアノテーションを持つ900の人為的な例が含まれています。
我々は,最終回答正当性,推論妥当性,接地忠実度,自己補正能力の4次元にわたる7Bから70Bパラメータを含む15の視覚言語モデルを評価する。
MagiCはさらに、対向的な視覚的手がかりの下でモデルの堅牢性を調査し、イントロスペクティブエラー訂正の能力を評価するための診断設定も含んでいる。
我々は、MagiScoreやStepSenseといった新しいメトリクスを導入し、基盤となる視覚的推論に対する現在のアプローチにおける重要な制限と機会を明らかにする包括的な分析を提供する。
関連論文リスト
- Reasoning Models Are More Easily Gaslighted Than You Think [85.84943447589511]
我々はOpenAIのo4-mini、Claude-3.7-Sonnet、Gemini-2.5-Flashの3つの最先端推論モデルを評価する。
ガス灯消火プロンプトによる精度低下が認められた。
GaslightingBench-Rは、推論モデルの認識可能性を評価するために設計された新しい診断ベンチマークである。
論文 参考訳(メタデータ) (2025-06-11T12:52:25Z) - ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models [37.54872845368151]
視覚的推論によってのみ解決可能な合成データセットを用いてケーススタディを行う。
次に、1,162人の専門家が注釈を付けた質問を含む新しいチャート質問回答(QA)ベンチマークであるChartMuseumを紹介します。
人間は93%の精度を達成しているが、最高のパフォーマンスモデルであるGemini-2.5-Proは63.0%しか達成できず、主要なオープンソースであるLVLM Qwen2.5-VL-72B-Instructは38.5%しか達成していない。
論文 参考訳(メタデータ) (2025-05-19T17:59:27Z) - VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [84.16442052968615]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。
RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論カテゴリに焦点を当てている。
オープンソースモデルとプロプライエタリモデルの両方を含む,9つの目立った視覚編集モデルを評価する実験を行った。
論文 参考訳(メタデータ) (2025-04-03T17:59:56Z) - Tell Me Why: Explainable Public Health Fact-Checking with Large Language Models [21.280725490520798]
本稿では,大規模言語モデルによる公衆衛生クレームの検証に焦点をあてる。
各種オープンおよびクローズドソースモデルにおける0/fwショットプロンプトとパラメータ効率の微調整の有効性について検討する。
論文 参考訳(メタデータ) (2024-05-15T15:49:06Z) - Q-Instruct: Improving Low-level Visual Abilities for Multi-modality
Foundation Models [81.20804369985376]
我々は,低レベルの視覚に対する多数の人間のフィードバックを収集する大規模主観的実験を行う。
構築された**Q-Pathway**データセットには、18,973イメージに関する58万の詳細な人間のフィードバックが含まれている。
我々は、GPT参加型変換を設計し、これらのフィードバックを多種多様な200K命令応答対に処理する。
論文 参考訳(メタデータ) (2023-11-12T09:10:51Z) - HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models [69.52245481329899]
本稿では,画像コンテキスト推論評価のためのベンチマークであるHalusionBenchを紹介する。
このベンチマークは、1129の質問と組み合わせた346の画像で構成されており、すべて人間の専門家によって細心の注意を払って作成されている。
HallusionBenchの評価では、15種類のモデルをベンチマークし、最先端のGPT-4Vによって達成された31.42%の質問対精度を強調した。
論文 参考訳(メタデータ) (2023-10-23T04:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。