Fugu-MT 論文翻訳(概要): VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity

論文の概要: VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity

arxiv url: http://arxiv.org/abs/2503.11557v1
Date: Fri, 14 Mar 2025 16:26:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-17 22:04:29.408282
Title: VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity
Title（参考訳）: VERIFY:マルチモーダル推論忠実度調査のためのビジュアル説明と推論のベンチマーク
Authors: Jing Bi, Junjia Guo, Susan Liang, Guangyu Sun, Luchuan Song, Yunlong Tang, Jinxi He, Jiarui Wu, Ali Vosoughi, Chen Chen, Chenliang Xu,
Abstract要約: VERIFYは最先端MLLMの視覚的推論能力を分離し、厳格に評価するために設計されたベンチマークである。それぞれの問題には人手による推論パスが伴い、モデル決定プロセスの詳細な評価を初めて提供する。本稿では,従来のモデル推論パターンにおける重要な不均衡を浮き彫りにして,単なる精度を超える視覚的推論の忠実さを評価する新しい指標を提案する。
参考スコア（独自算出の注目度）: 34.29409506366145
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual reasoning is central to human cognition, enabling individuals to interpret and abstractly understand their environment. Although recent Multimodal Large Language Models (MLLMs) have demonstrated impressive performance across language and vision-language tasks, existing benchmarks primarily measure recognition-based skills and inadequately assess true visual reasoning capabilities. To bridge this critical gap, we introduce VERIFY, a benchmark explicitly designed to isolate and rigorously evaluate the visual reasoning capabilities of state-of-the-art MLLMs. VERIFY compels models to reason primarily from visual information, providing minimal textual context to reduce reliance on domain-specific knowledge and linguistic biases. Each problem is accompanied by a human-annotated reasoning path, making it the first to provide in-depth evaluation of model decision-making processes. Additionally, we propose novel metrics that assess visual reasoning fidelity beyond mere accuracy, highlighting critical imbalances in current model reasoning patterns. Our comprehensive benchmarking of leading MLLMs uncovers significant limitations, underscoring the need for a balanced and holistic approach to both perception and reasoning. For more teaser and testing, visit our project page (https://verify-eqh.pages.dev/).
Abstract（参考訳）: 視覚的推論は人間の認知の中心であり、個人が環境を解釈し抽象的に理解することができる。最近のMLLM(Multimodal Large Language Models)は、言語および視覚言語タスクにまたがる顕著なパフォーマンスを示しているが、既存のベンチマークは主に認識に基づくスキルを測定し、真の視覚的推論能力を不十分に評価している。この重要なギャップを埋めるために,最先端MLLMの視覚的推論能力を分離し,厳密に評価するベンチマークであるVERIFYを導入する。 VERIFYは、主に視覚情報から推論するためにモデルを補完し、ドメイン固有の知識と言語バイアスへの依存を減らすために、最小限のテキストコンテキストを提供する。それぞれの問題には人手による推論パスが伴い、モデル決定プロセスの詳細な評価を初めて提供する。さらに,従来のモデル推論パターンにおける重要な不均衡を浮き彫りにして,単なる精度を超える視覚的推論の忠実さを評価する新しい指標を提案する。我々の総合的なMLLMのベンチマークでは、認識と推論の両方に対するバランスのとれた総合的なアプローチの必要性が強調され、重大な制限が明らかになった。さらなるティーザーとテストについては、プロジェクトページ(https://verify-eqh.pages.dev/)を参照してください。

関連論文リスト

PENDULUM: A Benchmark for Assessing Sycophancy in Multimodal Large Language Models [43.767942065379366]
サイコファシー(英: Sycophancy)は、AIモデルが実際の正確さや視覚的証拠の矛盾を犠牲にしてユーザー入力に同意する傾向である。約2000組の視覚質問応答対からなる総合評価ベンチマーク「textitPENDULUM」を導入する。本研究は, モデルロバスト性およびサイコファンおよび幻覚行動に対する感受性の顕著な変動を観察する。
論文参考訳（メタデータ） (2025-12-22T12:49:12Z)
LTD-Bench: Evaluating Large Language Models by Letting Them Draw [57.237152905238084]
LTD-Benchは、大規模言語モデル(LLM)のブレークスルーベンチマークである。 LLMの評価を抽象的なスコアから直接観察可能な視覚出力に変換する。 LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
論文参考訳（メタデータ） (2025-11-04T08:11:23Z)
Explain Before You Answer: A Survey on Compositional Visual Reasoning [74.27548620675748]
構成的視覚推論は、マルチモーダルAIにおける重要な研究フロンティアとして登場した。本調査は,トップ会場(CVPR,ICCV,NeurIPS,ICML,ACLなど)から260以上の論文を体系的にレビューする。次に60以上のベンチマークとそれに対応するメトリクスを、基底精度、連鎖忠実性、高分解能知覚などの次元に沿って探索する。
論文参考訳（メタデータ） (2025-08-24T11:01:51Z)
KnowDR-REC: A Benchmark for Referring Expression Comprehension with Real-World Knowledge [1.5833270109954136]
本研究では,実世界の知識に基づいて構築されたKnowDR-RECを提案する。我々は、KnowDR-REC上で16の最先端マルチモーダルモデルを評価し、既存のMLLMが知識駆動型視覚接地作業に苦戦していることを示す実験結果を得た。
論文参考訳（メタデータ） (2025-08-12T19:43:44Z)
Multi-Step Visual Reasoning with Visual Tokens Scaling and Verification [22.871255950998016]
本稿では,MLLMが視覚コンテンツに対して検証者誘導推論を行うことを可能にする,推論時ビジュアルトークンスケーリングのための新しいフレームワークを提案する。提案手法は,様々な視覚的推論ベンチマークにおいて,既存手法よりも優れていた。これらの結果は,次世代MLLMにおける微粒でコンテキスト対応の視覚的推論を実現するための動的推論機構の実現を実証するものである。
論文参考訳（メタデータ） (2025-06-08T17:38:49Z)
Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。 ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文参考訳（メタデータ） (2025-05-24T12:33:52Z)
Exploring Implicit Visual Misunderstandings in Multimodal Large Language Models through Attention Analysis [21.869968563545736]
我々は、暗黙的な視覚的誤解(IVM)を定義し、MLLMは視覚的入力を完全に理解することなく正しい回答を提供する。 IVMの定量化には,スケール非依存の計量,テクスチャータテンションの精度,新しいベンチマークを導入する。我々は、より微細な粒度にアプローチを拡張し、その効果を単調なシナリオで実証する。
論文参考訳（メタデータ） (2025-05-15T17:52:40Z)
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文参考訳（メタデータ） (2025-04-21T17:59:53Z)
V-MAGE: A Game Evaluation Framework for Assessing Visual-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
V-MAGEはMLLMの視覚的推論能力を評価するために設計されたゲームベースの評価フレームワークである。 V-MAGEを用いて主要なMLLMを評価し,視覚的知覚と推論において重要な課題を明らかにする。
論文参考訳（メタデータ） (2025-04-08T15:43:01Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
VisFactor: Benchmarking Fundamental Visual Cognition in Multimodal Large Language Models [62.667142971664575]
因子関連認知テスト(FRCT)から得られた新しいベンチマークであるVisFactorを紹介する。 VisFactorは視覚関連FRCTサブテストのデジタル化を行い、基本的な視覚認知タスク間でMLLMを体系的に評価する。 GPT-4o, Gemini-Pro, Qwen-VLなどの最先端MLLMの総合評価を行った。
論文参考訳（メタデータ） (2025-02-23T04:21:32Z)
Cognitive Paradigms for Evaluating VLMs on Visual Reasoning Task [3.2228025627337864]
機械の視覚的推論を改善するには、ビジョン・ランゲージ・モデル(VLM)がどのように複雑な視覚的パターンを処理し、解釈するかを深く理解する必要がある。本研究は,自然画像に基づくボナード問題に基づくVLM推論を体系的に解析する,認知に着想を得た新しい評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-01-23T12:42:42Z)
DRIVINGVQA: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios with Driving Theory Tests [69.00444996464662]
本稿では、複雑な実世界のシナリオにおける視覚的連鎖推論を評価するために、駆動理論テストから得られた新しいベンチマークであるDrivingVQAを提案する。実験の結果,オープンソースおよびプロプライエタリなLVLMは,ゼロショット設定下での視覚的連鎖推論に苦慮していることがわかった。視覚的推論を改善するために関連エンティティを活用するトレーニング戦略について検討する。
論文参考訳（メタデータ） (2025-01-08T18:31:16Z)
ProReason: Multi-Modal Proactive Reasoning with Decoupled Eyesight and Wisdom [42.03770972100087]
本稿ではProReasonという新しいビジュアル推論フレームワークを紹介する。 ProReasonは、マルチランプロアクティブな知覚と分離されたビジョン推論機能を備えている。実験の結果、ProReasonは既存のマルチステップ推論フレームワークとパッシブピアメソッドの両方より優れていることがわかった。
論文参考訳（メタデータ） (2024-10-18T03:22:06Z)
Multimodal Causal Reasoning Benchmark: Challenging Vision Large Language Models to Infer Causal Links Between Siamese Images [19.923665989164387]
我々は,Multimodal Causal Reasoningベンチマーク,すなわち MuCR を提案し,大規模言語モデルに挑戦する。具体的には,セマンティック因果関係と視覚的手がかりを組み込んだシアム画像を作成するための,プロンプト駆動画像合成手法を提案する。我々の広範な実験により、現在最先端のVLLMは、我々が期待したようなマルチモーダル因果推論に熟練していないことが明らかとなった。
論文参考訳（メタデータ） (2024-08-15T12:04:32Z)
VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文参考訳（メタデータ） (2024-04-22T04:49:22Z)
NPHardEval4V: A Dynamic Reasoning Benchmark of Multimodal Large Language Models [34.91372939329467]
MLLMの純粋推論能力を評価するためのベンチマークであるNPHardEval4Vを導入する。異なるモデルにまたがる推論能力に有意な差が認められた。また,視覚,テキスト,視覚とテキストの組み合わせがMLLMの推論能力に与える影響についても検討した。
論文参考訳（メタデータ） (2024-03-04T07:10:31Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。 LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文参考訳（メタデータ） (2023-10-02T01:00:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。