論文の概要: MARVEL: Multidimensional Abstraction and Reasoning through Visual Evaluation and Learning
- arxiv url: http://arxiv.org/abs/2404.13591v2
- Date: Wed, 24 Apr 2024 22:32:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 12:31:48.783590
- Title: MARVEL: Multidimensional Abstraction and Reasoning through Visual Evaluation and Learning
- Title(参考訳): MARVEL:視覚的評価と学習による多次元抽象化と推論
- Authors: Yifan Jiang, Jiarui Zhang, Kexuan Sun, Zhivar Sourati, Kian Ahrabian, Kaixin Ma, Filip Ilievski, Jay Pujara,
- Abstract要約: マルチモーダル大言語モデル(MLLM)が抽象的な視覚的推論能力を持っているかどうかを評価する。
スドゥークパズルと同様に、抽象的視覚推論(AVR)問題は高レベルのパターンを見つける必要がある。
6つのコア知識パターン,幾何学的および抽象的形状,5つのタスク構成からなる770個のMLLMのベンチマークであるMARVELを紹介する。
- 参考スコア(独自算出の注目度): 22.440669015518015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While multi-modal large language models (MLLMs) have shown significant progress on many popular visual reasoning benchmarks, whether they possess abstract visual reasoning abilities remains an open question. Similar to the Sudoku puzzles, abstract visual reasoning (AVR) problems require finding high-level patterns (e.g., repetition constraints) that control the input shapes (e.g., digits) in a specific task configuration (e.g., matrix). However, existing AVR benchmarks only considered a limited set of patterns (addition, conjunction), input shapes (rectangle, square), and task configurations (3 by 3 matrices). To evaluate MLLMs' reasoning abilities comprehensively, we introduce MARVEL, a multidimensional AVR benchmark with 770 puzzles composed of six core knowledge patterns, geometric and abstract shapes, and five different task configurations. To inspect whether the model accuracy is grounded in perception and reasoning, MARVEL complements the general AVR question with perception questions in a hierarchical evaluation framework. We conduct comprehensive experiments on MARVEL with nine representative MLLMs in zero-shot and few-shot settings. Our experiments reveal that all models show near-random performance on the AVR question, with significant performance gaps (40%) compared to humans across all patterns and task configurations. Further analysis of perception questions reveals that MLLMs struggle to comprehend the visual features (near-random performance) and even count the panels in the puzzle ( <45%), hindering their ability for abstract reasoning. We release our entire code and dataset.
- Abstract(参考訳): マルチモーダルな大規模言語モデル(MLLM)は、多くの一般的な視覚推論ベンチマークにおいて大きな進歩を示しているが、それらが抽象的な視覚推論能力を持っているかどうかは未解決のままである。
スドゥークパズルと同様に、抽象的視覚推論(AVR)問題は、特定のタスク構成(例えば、行列)において入力形状(例えば、桁)を制御する高レベルパターン(例えば、繰り返し制約)を見つける必要がある。
しかし、既存のAVRベンチマークでは、パターンの限られたセット(付加、結合)、入力形状(矩形、正方形)、タスク構成(3×3行列)しか考慮されていない。
MLLMの推論能力を総合的に評価するため、MARVELは6つのコア知識パターン、幾何学的および抽象的形状、および5つの異なるタスク構成からなる770個のパズルからなる多次元AVRベンチマークである。
モデル精度が知覚と推論の基盤となっているかどうかを調べるため、MARVELは階層的評価フレームワークにおいて、一般的なAVR質問と知覚質問を補完する。
我々は9つの代表MLLMをゼロショットおよび少数ショット設定でMARVEL上で包括的実験を行う。
実験の結果、AVR質問では、すべてのモデルがほぼランダムなパフォーマンスを示しており、すべてのパターンやタスク構成にまたがる人間と比較して、大きなパフォーマンスギャップ(40%)があることがわかった。
知覚的疑問のさらなる分析により、MLLMは視覚的特徴(ほぼランダムなパフォーマンス)を理解するのに苦労し、パズルのパネル(45%)を数えることさえ困難であり、抽象的推論の能力を妨げていることが明らかになった。
コードとデータセット全体をリリースします。
関連論文リスト
- Prismatic VLMs: Investigating the Design Space of Visually-Conditioned
Language Models [77.77951795883698]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
まず,視覚的質問応答,言語からのオブジェクトローカライゼーション,幻覚などの特性を探索する課題セットを対象とする,標準化された評価スイートをコンパイルする。
我々は、事前訓練された視覚表現を含むキー設計軸に沿ったVLMを厳格に調査し、ベース対インストラクション言語モデルを用いたトレードオフの定量化を行う。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection
with Multimodal Large Language Models [63.946809247201905]
フェーススプーフィングと偽造検出におけるMLLMの能力を評価するための新しいベンチマーク、ShielDを導入する。
我々は、これらの2つの顔セキュリティタスクにおいて、マルチモーダル顔データを評価するために、真/偽/複数選択の質問を設計する。
その結果,MLLMは顔セキュリティ領域において大きな可能性を秘めていることがわかった。
論文 参考訳(メタデータ) (2024-02-06T17:31:36Z) - Pushing Boundaries: Exploring Zero Shot Object Classification with Large
Multimodal Models [0.09264362806173355]
LLVA(Large Language and Vision Assistant Model)は、画像ベースのクエリと連動したリッチな会話体験をユーザに提供するモデルである。
本稿では,LMMについて一意に考察し,画像分類タスクの適応性について検討する。
我々の研究では、MNIST、Cats Vs. Dogs、Hymnoptera(Ants Vs. Bees)、Pox Vs. Non-Poxの皮膚画像からなる非伝統的なデータセットの4つの多様なデータセットのベンチマーク分析を含む。
論文 参考訳(メタデータ) (2023-12-30T03:19:54Z) - Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for
Visual Question Answering [9.110942712627356]
視覚言語モデル(VLM)は、様々なタスクにおいて顕著な進歩を見せている。
本稿では,Large Language Models (LLMs) に組み込んだ多言語協調フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-29T03:10:42Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Learning Abstract Visual Reasoning via Task Decomposition: A Case Study
in Raven Progressive Matrices [0.24475591916185496]
Raven Progressive Matrices(source)では、タスクは、与えられたコンテキストで利用可能な答えの1つを選択することである。
本研究では,変圧器の青写真に基づくディープラーニングアーキテクチャを提案する。
この方法で得られた多次元の予測は、その答えを選択するために直接近似される。
論文 参考訳(メタデータ) (2023-08-12T11:02:21Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - ASOD60K: Audio-Induced Salient Object Detection in Panoramic Videos [79.05486554647918]
本研究では,パノラマビデオから有能な物体を分離する新しいタスクであるPV-SODを提案する。
既存の固定レベルやオブジェクトレベルの塩分濃度検出タスクとは対照的に,多モードの塩分濃度検出(SOD)に焦点を当てる。
AsOD60Kという,6レベル階層の4K解像度ビデオフレームを含む,最初の大規模データセットを収集する。
論文 参考訳(メタデータ) (2021-07-24T15:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。