論文の概要: CARV: A Diagnostic Benchmark for Compositional Analogical Reasoning in Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2603.27958v1
- Date: Mon, 30 Mar 2026 02:22:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.192996
- Title: CARV: A Diagnostic Benchmark for Compositional Analogical Reasoning in Multimodal LLMs
- Title(参考訳): CARV:マルチモーダルLLMにおける構成分析推論のための診断ベンチマーク
- Authors: Yongkang Du, Xiaohan Zou, Minhao Cheng, Lu Lin,
- Abstract要約: 本稿では,CARV(Compositional Analogical Reasoning in Vision)を紹介する。
各ペアからシンボリックルールを抽出し、新しい変換を構成するMLLMを必要とする。
Gemini-2.5 Proでさえ40.4%の精度しか達成していない。
- 参考スコア(独自算出の注目度): 21.231500796004344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Analogical reasoning tests a fundamental aspect of human cognition: mapping the relation from one pair of objects to another. Existing evaluations of this ability in multimodal large language models (MLLMs) overlook the ability to compose rules from multiple sources, a critical component of higher-order intelligence. To close this gap, we introduce CARV (Compositional Analogical Reasoning in Vision), a novel task together with a 5,500-sample dataset as the first diagnostic benchmark. We extend the analogy from a single pair to multiple pairs, which requires MLLMs to extract symbolic rules from each pair and compose new transformations. Evaluation on the state-of-the-art MLLMs reveals a striking performance gap: even Gemini-2.5 Pro achieving only 40.4% accuracy, far below human-level performance of 100%. Diagnostic analysis shows two consistent failure modes: (1) decomposing visual changes into symbolic rules, and (2) maintaining robustness under diverse or complex settings, highlighting the limitations of current MLLMs on this task.
- Abstract(参考訳): 解析的推論は、人間の認知の基本的な側面として、ある一対の物体から別の物体への関係をマッピングする。
マルチモーダル大規模言語モデル(MLLM)では、高次インテリジェンスの重要な構成要素である複数のソースからルールを構成する能力を見落としている。
このギャップを埋めるために、最初の診断ベンチマークとして、5500サンプルのデータセットとともに新しいタスクであるCARV(Compositional Analogical Reasoning in Vision)を導入する。
各ペアからシンボリックルールを抽出し、新しい変換を構成するMLLMを必要とする。
Gemini-2.5 Proでさえ40.4%の精度しか達成していない。
1) 視覚的な変化を象徴的な規則に分解し、(2) 多様な設定や複雑な設定下で堅牢性を維持し、このタスクにおける現在のMLLMの限界を強調する。
関連論文リスト
- Detecting Token-Level Hallucinations Using Variance Signals: A Reference-Free Approach [0.0]
大規模言語モデル(LLM)は、様々なタスクにまたがる印象的な生成能力を示したが、幻覚に弱いままである。
複数世代にわたるトークンログ確率のばらつきを利用した,参照不要なトークンレベルの幻覚検出フレームワークを提案する。
我々のアプローチは、モデルに依存しず、解釈可能であり、リアルタイムまたはポストホック分析に適している。
論文 参考訳(メタデータ) (2025-07-05T19:20:59Z) - VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。
PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。
さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-06T20:35:41Z) - Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。