論文の概要: MARVEL: Multidimensional Abstraction and Reasoning through Visual Evaluation and Learning
- arxiv url: http://arxiv.org/abs/2404.13591v1
- Date: Sun, 21 Apr 2024 09:15:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 18:21:27.323177
- Title: MARVEL: Multidimensional Abstraction and Reasoning through Visual Evaluation and Learning
- Title(参考訳): MARVEL:視覚的評価と学習による多次元抽象化と推論
- Authors: Yifan Jiang, Jiarui Zhang, Kexuan Sun, Zhivar Sourati, Kian Ahrabian, Kaixin Ma, Filip Ilievski, Jay Pujara,
- Abstract要約: マルチモーダル大言語モデル(MLLM)が抽象的な視覚的推論能力を持っているかどうかを評価する。
スドゥークパズルと同様に、抽象的視覚推論(AVR)問題は高レベルのパターンを見つける必要がある。
6つのコア知識パターン,幾何学的および抽象的形状,5つのタスク構成からなる770個のMLLMのベンチマークであるMARVELを紹介する。
- 参考スコア(独自算出の注目度): 22.440669015518015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While multi-modal large language models (MLLMs) have shown significant progress on many popular visual reasoning benchmarks, whether they possess abstract visual reasoning abilities remains an open question. Similar to the Sudoku puzzles, abstract visual reasoning (AVR) problems require finding high-level patterns (e.g., repetition constraints) that control the input shapes (e.g., digits) in a specific task configuration (e.g., matrix). However, existing AVR benchmarks only considered a limited set of patterns (addition, conjunction), input shapes (rectangle, square), and task configurations (3 by 3 matrices). To evaluate MLLMs' reasoning abilities comprehensively, we introduce MARVEL, a multidimensional AVR benchmark with 770 puzzles composed of six core knowledge patterns, geometric and abstract shapes, and five different task configurations. To inspect whether the model accuracy is grounded in perception and reasoning, MARVEL complements the general AVR question with perception questions in a hierarchical evaluation framework. We conduct comprehensive experiments on MARVEL with nine representative MLLMs in zero-shot and few-shot settings. Our experiments reveal that all models show near-random performance on the AVR question, with significant performance gaps (40%) compared to humans across all patterns and task configurations. Further analysis of perception questions reveals that MLLMs struggle to comprehend the visual features (near-random performance) and even count the panels in the puzzle ( <45%), hindering their ability for abstract reasoning. We release our entire code and dataset.
- Abstract(参考訳): マルチモーダルな大規模言語モデル(MLLM)は、多くの一般的な視覚推論ベンチマークにおいて大きな進歩を示しているが、それらが抽象的な視覚推論能力を持っているかどうかは未解決のままである。
スドゥークパズルと同様に、抽象的視覚推論(AVR)問題は、特定のタスク構成(例えば、行列)において入力形状(例えば、桁)を制御する高レベルパターン(例えば、繰り返し制約)を見つける必要がある。
しかし、既存のAVRベンチマークでは、パターンの限られたセット(付加、結合)、入力形状(矩形、正方形)、タスク構成(3×3行列)しか考慮されていない。
MLLMの推論能力を総合的に評価するため、MARVELは6つのコア知識パターン、幾何学的および抽象的形状、および5つの異なるタスク構成からなる770個のパズルからなる多次元AVRベンチマークである。
モデル精度が知覚と推論の基盤となっているかどうかを調べるため、MARVELは階層的評価フレームワークにおいて、一般的なAVR質問と知覚質問を補完する。
我々は9つの代表MLLMをゼロショットおよび少数ショット設定でMARVEL上で包括的実験を行う。
実験の結果、AVR質問では、すべてのモデルがほぼランダムなパフォーマンスを示しており、すべてのパターンやタスク構成にまたがる人間と比較して、大きなパフォーマンスギャップ(40%)があることがわかった。
知覚的疑問のさらなる分析により、MLLMは視覚的特徴(ほぼランダムなパフォーマンス)を理解するのに苦労し、パズルのパネル(45%)を数えることさえ困難であり、抽象的推論の能力を妨げていることが明らかになった。
コードとデータセット全体をリリースします。
関連論文リスト
- Beyond Visual Understanding: Introducing PARROT-360V for Vision Language Model Benchmarking [0.12369742273401668]
2487の難解な視覚パズルを特徴とする新しい総合ベンチマークであるPARROT-360Vベンチマークを紹介する。
GPT-4o, Claude-3.5-Sonnet, Gemini-1.5-Pro の先行モデルの評価を行った。
最新モデルのスコアはベンチマークで28~56パーセンテージで、一般的なベンチマークでのパフォーマンスよりも大幅に低かった。
論文 参考訳(メタデータ) (2024-11-20T01:09:21Z) - AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [55.14033256706175]
視覚・言語情報の統合を促進するためには,LVLM(Large Vision-Language Models)が不可欠である。
本稿では,需要評価のための自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力にまたがる7つのLVLMの広範な評価を通じて、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - Intriguing Properties of Large Language and Vision Models [18.449076451976236]
大規模言語とビジョンモデル(LLVM)は、その顕著な一般化性能のために、大きな注目と開発努力を受けている。
高度な推論タスクの達成にもかかわらず、基本的な知覚関連タスクのパフォーマンスは驚くほど低いままである。
LLVMの最も一般的なファミリー(LLaVA)を10評価ベンチマークで評価することで、この問題を調査する。
論文 参考訳(メタデータ) (2024-10-07T05:07:01Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - What is the Visual Cognition Gap between Humans and Multimodal LLMs? [22.99627171182423]
MLLM(Multimodal Large Language Models)は、認識、セグメンテーション、オブジェクト検出などの言語誘導タスクにおいて大きな可能性を示している。
このような課題の1つは抽象的な視覚的推論(AVR)であり、一連の画像におけるパターン間の関係を識別し、その後のパターンを予測するために外挿する認知能力である。
MLLMのゼロショット能力を評価するために,新しいデータセットMaRs-VQAとVCog-Benchを提案する。
論文 参考訳(メタデータ) (2024-06-14T22:02:21Z) - SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection
with Multimodal Large Language Models [63.946809247201905]
フェーススプーフィングと偽造検出におけるMLLMの能力を評価するための新しいベンチマーク、ShielDを導入する。
我々は、これらの2つの顔セキュリティタスクにおいて、マルチモーダル顔データを評価するために、真/偽/複数選択の質問を設計する。
その結果,MLLMは顔セキュリティ領域において大きな可能性を秘めていることがわかった。
論文 参考訳(メタデータ) (2024-02-06T17:31:36Z) - REBUS: A Robust Evaluation Benchmark of Understanding Symbols [1.90463290938268]
GPT-4oは他の全てのモデルよりも大幅に優れ、続いてプロプライエタリなモデルも他の評価モデルよりも優れていた。
最高のモデルでさえ、最終的な精度はわずか42%で、ハードパズルでは7%に低下する。
したがって、我々のベンチマークは、マルチモーダルな大言語モデルの知識と推論における大きな欠点を特定するのに利用できる。
論文 参考訳(メタデータ) (2024-01-11T00:30:28Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Learning Abstract Visual Reasoning via Task Decomposition: A Case Study
in Raven Progressive Matrices [0.24475591916185496]
Raven Progressive Matrices(source)では、タスクは、与えられたコンテキストで利用可能な答えの1つを選択することである。
本研究では,変圧器の青写真に基づくディープラーニングアーキテクチャを提案する。
この方法で得られた多次元の予測は、その答えを選択するために直接近似される。
論文 参考訳(メタデータ) (2023-08-12T11:02:21Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - ASOD60K: Audio-Induced Salient Object Detection in Panoramic Videos [79.05486554647918]
本研究では,パノラマビデオから有能な物体を分離する新しいタスクであるPV-SODを提案する。
既存の固定レベルやオブジェクトレベルの塩分濃度検出タスクとは対照的に,多モードの塩分濃度検出(SOD)に焦点を当てる。
AsOD60Kという,6レベル階層の4K解像度ビデオフレームを含む,最初の大規模データセットを収集する。
論文 参考訳(メタデータ) (2021-07-24T15:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。