Fugu-MT 論文翻訳(概要): MARVEL: Multidimensional Abstraction and Reasoning through Visual Evaluation and Learning

論文の概要: MARVEL: Multidimensional Abstraction and Reasoning through Visual Evaluation and Learning

arxiv url: http://arxiv.org/abs/2404.13591v2
Date: Wed, 24 Apr 2024 22:32:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-26 12:31:48.783590
Title: MARVEL: Multidimensional Abstraction and Reasoning through Visual Evaluation and Learning
Title（参考訳）: MARVEL:視覚的評価と学習による多次元抽象化と推論
Authors: Yifan Jiang, Jiarui Zhang, Kexuan Sun, Zhivar Sourati, Kian Ahrabian, Kaixin Ma, Filip Ilievski, Jay Pujara,
Abstract要約: マルチモーダル大言語モデル(MLLM)が抽象的な視覚的推論能力を持っているかどうかを評価する。スドゥークパズルと同様に、抽象的視覚推論(AVR)問題は高レベルのパターンを見つける必要がある。 6つのコア知識パターン,幾何学的および抽象的形状,5つのタスク構成からなる770個のMLLMのベンチマークであるMARVELを紹介する。
参考スコア（独自算出の注目度）: 22.440669015518015
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While multi-modal large language models (MLLMs) have shown significant progress on many popular visual reasoning benchmarks, whether they possess abstract visual reasoning abilities remains an open question. Similar to the Sudoku puzzles, abstract visual reasoning (AVR) problems require finding high-level patterns (e.g., repetition constraints) that control the input shapes (e.g., digits) in a specific task configuration (e.g., matrix). However, existing AVR benchmarks only considered a limited set of patterns (addition, conjunction), input shapes (rectangle, square), and task configurations (3 by 3 matrices). To evaluate MLLMs' reasoning abilities comprehensively, we introduce MARVEL, a multidimensional AVR benchmark with 770 puzzles composed of six core knowledge patterns, geometric and abstract shapes, and five different task configurations. To inspect whether the model accuracy is grounded in perception and reasoning, MARVEL complements the general AVR question with perception questions in a hierarchical evaluation framework. We conduct comprehensive experiments on MARVEL with nine representative MLLMs in zero-shot and few-shot settings. Our experiments reveal that all models show near-random performance on the AVR question, with significant performance gaps (40%) compared to humans across all patterns and task configurations. Further analysis of perception questions reveals that MLLMs struggle to comprehend the visual features (near-random performance) and even count the panels in the puzzle ( <45%), hindering their ability for abstract reasoning. We release our entire code and dataset.
Abstract（参考訳）: マルチモーダルな大規模言語モデル(MLLM)は、多くの一般的な視覚推論ベンチマークにおいて大きな進歩を示しているが、それらが抽象的な視覚推論能力を持っているかどうかは未解決のままである。スドゥークパズルと同様に、抽象的視覚推論(AVR)問題は、特定のタスク構成(例えば、行列)において入力形状(例えば、桁)を制御する高レベルパターン(例えば、繰り返し制約)を見つける必要がある。しかし、既存のAVRベンチマークでは、パターンの限られたセット(付加、結合)、入力形状(矩形、正方形)、タスク構成(3×3行列)しか考慮されていない。 MLLMの推論能力を総合的に評価するため、MARVELは6つのコア知識パターン、幾何学的および抽象的形状、および5つの異なるタスク構成からなる770個のパズルからなる多次元AVRベンチマークである。モデル精度が知覚と推論の基盤となっているかどうかを調べるため、MARVELは階層的評価フレームワークにおいて、一般的なAVR質問と知覚質問を補完する。我々は9つの代表MLLMをゼロショットおよび少数ショット設定でMARVEL上で包括的実験を行う。実験の結果、AVR質問では、すべてのモデルがほぼランダムなパフォーマンスを示しており、すべてのパターンやタスク構成にまたがる人間と比較して、大きなパフォーマンスギャップ(40%)があることがわかった。知覚的疑問のさらなる分析により、MLLMは視覚的特徴(ほぼランダムなパフォーマンス)を理解するのに苦労し、パズルのパネル(45%)を数えることさえ困難であり、抽象的推論の能力を妨げていることが明らかになった。コードとデータセット全体をリリースします。

関連論文リスト

VisualOverload: Probing Visual Understanding of VLMs in Really Dense Scenes [36.370533774426555]
2,720組の質問応答対からなる視覚的質問応答(VQA)ベンチマークであるVisualOverloadを提案する。通常、地球近傍の画像理解に焦点を当てた以前のVQAデータセットとは異なり、VisualOverloadは、密集したシーンでシンプルで知識のない視覚タスクを実行するためにモデルに挑戦する。 37の試験モデルのうち最高のモデル(o3)でさえ、最も難しいテスト分割で19.6%、すべての質問で69.5%の精度しか達成できない。
論文参考訳（メタデータ） (2025-09-29T18:00:25Z)
Seeing is Not Understanding: A Benchmark on Perception-Cognition Disparities in Large Language Models [9.870930749379932]
EmoBench-Redditは、マルチモーダル感情理解のための新しい階層型ベンチマークである。データセットは、ソーシャルメディアプラットフォームRedditから350の精巧にキュレートされたサンプルで構成されている。各データポイントには6つの複数選択の質問と、困難を増すための1つのオープンな質問がある。
論文参考訳（メタデータ） (2025-09-14T05:40:24Z)
Beyond the Visible: Benchmarking Occlusion Perception in Multimodal Large Language Models [17.922450921582794]
咬合知覚は、人間レベルの空間的理解にとって重要な基礎である。我々は,オクルージョン知覚に特化して設計された最初の視覚的質問応答(VQA)ベンチマークであるO-Benchを紹介する。
論文参考訳（メタデータ） (2025-08-06T03:39:21Z)
SIRI-Bench: Challenging VLMs' Spatial Intelligence through Complex Reasoning Tasks [53.611256895338585]
SIRI-Benchは、映像ベースの推論タスクを通して視覚言語モデルの空間知性を評価するために設計されたベンチマークである。 SIRI-Benchは1K近いビデオクエスト・アンサー・トリプルで構成されており、各問題はリアルな3Dシーンに埋め込まれ、ビデオによってキャプチャされる。大規模データ合成を容易にするために,自動シーン生成エンジンを開発した。
論文参考訳（メタデータ） (2025-06-17T13:40:00Z)
Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations [61.235500325327585]
既存のAIベンチマークは、主に言語推論を評価し、非言語的で多段階の視覚シミュレーションの複雑さを無視している。 STAREは,マルチモーダルな大規模言語モデルを視覚シミュレーションによりよりよく解いたタスクで厳格に評価するためのベンチマークである。評価の結果,より単純な2次元変換よりもモデルの方が優れているが,より複雑なタスクにおいてランダムに近い確率で実行可能であることがわかった。
論文参考訳（メタデータ） (2025-06-05T05:09:46Z)
VisuRiddles: Fine-grained Perception is a Primary Bottleneck for Multimodal Large Language Models in Abstract Visual Reasoning [66.84770041828462]
マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、多くの推論タスクにおいて、その性能を著しく向上させてきた。 AVR(Abstract Visual Reasoning)は、抽象グラフィックの知覚に制限があるため、依然として重要な課題である。 PRSのベンチマークであるVisuRiddlesを提案し、モデルの推論能力を評価するために精巧に構築されたタスクを特徴付ける。第二に、パーセプチュアル・リドル・シンセサイザー (PRS) を導入する。
論文参考訳（メタデータ） (2025-06-03T07:24:00Z)
Do You See Me : A Multidimensional Benchmark for Evaluating Visual Perception in Multimodal LLMs [9.951669153984708]
Do You See Me"は,1,758のイメージと2,612の質問を備えた,スケーラブルなベンチマークである。人間は96.49%の精度を達成し、トップMLLMは50%以下である。これは、真に堅牢な視覚知覚を持つMLLMに対して、緊急の必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2025-05-28T13:31:32Z)
ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文参考訳（メタデータ） (2025-05-27T17:59:26Z)
Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。 ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文参考訳（メタデータ） (2025-05-24T12:33:52Z)
Are Multimodal Large Language Models Ready for Omnidirectional Spatial Reasoning? [66.88619941063048]
MLLM(Multimodal large language model)は全方向空間推論に対応しているのか? OSR-Benchはこの設定のために特別に設計された最初のベンチマークである。高忠実度パノラマ屋内シーンマップには、153,000以上の多様な質問応答ペアが含まれている。 GPT-4o, Gemini 1.5 Proを含む8つの最先端MLLMを評価し, ゼロショット設定で主要なオープンソースモデルを評価した。
論文参考訳（メタデータ） (2025-05-17T08:48:40Z)
Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs [41.072699990427374]
マルチビュー理解は、マルチモーダル大言語モデル(MLLM)において、エンボディエージェントとして使用されるための基本的な課題である。我々は、90の現実世界のシーンに2,100人以上の注意深い注釈付き質問応答対のベンチマークであるAll-Angles Benchを提案する。 Gemini-2.0-Flash, Claude-3.7-Sonnet, GPT-4o など27のMLLMを人体評価器に対してベンチマークした結果, 性能差は顕著であった。
論文参考訳（メタデータ） (2025-04-21T17:59:53Z)
PuzzleBench: A Fully Dynamic Evaluation Framework for Large Multimodal Models on Puzzle Solving [50.50405233978406]
我々は、OVPG(Open-ended Visual Puzzle Generation)という、完全に動的なマルチモーダル評価フレームワークを提案する。 OVPGは、パズル解決タスクにおいて、新しく、多様性があり、検証可能な評価データを自動的に生成することを目的としている。 OVPG上に構築されたPuzzleBenchは11,840のVQAサンプルからなる動的でスケーラブルなベンチマークである。
論文参考訳（メタデータ） (2025-04-15T05:29:31Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents [57.4686961979566]
EmbodiedEvalは、組み込みタスクを持つMLLMの総合的かつインタラクティブな評価ベンチマークである。多様性が大幅に向上した既存のAIタスクの幅広い範囲をカバーする。 EmbodiedEval における最先端MLLM の評価を行い,人体作業における人体レベルと比較して有意に不足していることがわかった。
論文参考訳（メタデータ） (2025-01-21T03:22:10Z)
Beyond Visual Understanding: Introducing PARROT-360V for Vision Language Model Benchmarking [0.12369742273401668]
2487の難解な視覚パズルを特徴とする新しい総合ベンチマークであるPARROT-360Vベンチマークを紹介する。 GPT-4o, Claude-3.5-Sonnet, Gemini-1.5-Pro の先行モデルの評価を行った。最新モデルのスコアはベンチマークで28～56パーセンテージで、一般的なベンチマークでのパフォーマンスよりも大幅に低かった。
論文参考訳（メタデータ） (2024-11-20T01:09:21Z)
AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [55.14033256706175]
視覚・言語情報の統合を促進するためには,LVLM(Large Vision-Language Models)が不可欠である。本稿では,需要評価のための自動フレームワークであるAutoBench-Vを紹介する。 5つの要求されたユーザ入力にまたがる7つのLVLMの広範な評価を通じて、このフレームワークの有効性と信頼性を示す。
論文参考訳（メタデータ） (2024-10-28T17:55:08Z)
Intriguing Properties of Large Language and Vision Models [18.449076451976236]
大規模言語とビジョンモデル(LLVM)は、その顕著な一般化性能のために、大きな注目と開発努力を受けている。高度な推論タスクの達成にもかかわらず、基本的な知覚関連タスクのパフォーマンスは驚くほど低いままである。 LLVMの最も一般的なファミリー(LLaVA)を10評価ベンチマークで評価することで、この問題を調査する。
論文参考訳（メタデータ） (2024-10-07T05:07:01Z)
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文参考訳（メタデータ） (2024-06-24T17:59:42Z)
What is the Visual Cognition Gap between Humans and Multimodal LLMs? [22.99627171182423]
MLLM(Multimodal Large Language Models)は、認識、セグメンテーション、オブジェクト検出などの言語誘導タスクにおいて大きな可能性を示している。このような課題の1つは抽象的な視覚的推論(AVR)であり、一連の画像におけるパターン間の関係を識別し、その後のパターンを予測するために外挿する認知能力である。 MLLMのゼロショット能力を評価するために,新しいデータセットMaRs-VQAとVCog-Benchを提案する。
論文参考訳（メタデータ） (2024-06-14T22:02:21Z)
NPHardEval4V: Dynamic Evaluation of Large Vision-Language Models with Effects of Vision [64.83085920775316]
NPHardEval4Vは4つの古典的NPハード問題に基づくマルチモーダルベンチマークスイートである。各タスクは、構造化された視覚レイアウトとテキストプロンプトを組み合わせることで、視覚言語的制約の下で推論を行うLVLMの能力を評価するように設計されている。以上の結果から,これらのモデルは知覚に基づく入力に対して合理的に優れているが,グローバルな最適化,抽象化,制約満足度に苦慮していることが明らかとなった。
論文参考訳（メタデータ） (2024-03-04T07:10:31Z)
SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection with Multimodal Large Language Models [63.946809247201905]
フェーススプーフィングと偽造検出におけるMLLMの能力を評価するための新しいベンチマーク、ShielDを導入する。我々は、これらの2つの顔セキュリティタスクにおいて、マルチモーダル顔データを評価するために、真/偽/複数選択の質問を設計する。その結果,MLLMは顔セキュリティ領域において大きな可能性を秘めていることがわかった。
論文参考訳（メタデータ） (2024-02-06T17:31:36Z)
REBUS: A Robust Evaluation Benchmark of Understanding Symbols [1.90463290938268]
GPT-4oは他の全てのモデルよりも大幅に優れ、続いてプロプライエタリなモデルも他の評価モデルよりも優れていた。最高のモデルでさえ、最終的な精度はわずか42%で、ハードパズルでは7%に低下する。したがって、我々のベンチマークは、マルチモーダルな大言語モデルの知識と推論における大きな欠点を特定するのに利用できる。
論文参考訳（メタデータ） (2024-01-11T00:30:28Z)
Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文参考訳（メタデータ） (2023-10-09T16:57:57Z)
Learning Abstract Visual Reasoning via Task Decomposition: A Case Study in Raven Progressive Matrices [0.24475591916185496]
Raven Progressive Matrices(source)では、タスクは、与えられたコンテキストで利用可能な答えの1つを選択することである。本研究では,変圧器の青写真に基づくディープラーニングアーキテクチャを提案する。この方法で得られた多次元の予測は、その答えを選択するために直接近似される。
論文参考訳（メタデータ） (2023-08-12T11:02:21Z)
See, Think, Confirm: Interactive Prompting Between Vision and Language Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。 IPVRには3つのステージがある。我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文参考訳（メタデータ） (2023-01-12T18:59:50Z)
ASOD60K: Audio-Induced Salient Object Detection in Panoramic Videos [79.05486554647918]
本研究では,パノラマビデオから有能な物体を分離する新しいタスクであるPV-SODを提案する。既存の固定レベルやオブジェクトレベルの塩分濃度検出タスクとは対照的に,多モードの塩分濃度検出(SOD)に焦点を当てる。 AsOD60Kという,6レベル階層の4K解像度ビデオフレームを含む,最初の大規模データセットを収集する。
論文参考訳（メタデータ） (2021-07-24T15:14:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。