論文の概要: Visual Graph Arena: Evaluating Visual Conceptualization of Vision and Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2506.06242v1
- Date: Fri, 06 Jun 2025 17:06:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.562616
- Title: Visual Graph Arena: Evaluating Visual Conceptualization of Vision and Multimodal Large Language Models
- Title(参考訳): Visual Graph Arena:視覚概念化とマルチモーダル大言語モデルの評価
- Authors: Zahra Babaiee, Peyman M. Kiasari, Daniela Rus, Radu Grosu,
- Abstract要約: 視覚抽象化のためのAIシステムの能力を評価し改善するためのビジュアルグラフアリーナ(VGA)を導入する。
人間はタスク間でほぼ完璧な精度を達成し、モデルは同型検出で完全に失敗し、パス/サイクルタスクにおいて限られた成功を示した。
表現不変推論の課題を分離することにより、VGAは、AIビジュアルモデルにおける人間のような概念化に向けた前進を促進するためのフレームワークを提供する。
- 参考スコア(独自算出の注目度): 51.900488744931785
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in multimodal large language models have driven breakthroughs in visual question answering. Yet, a critical gap persists, `conceptualization'-the ability to recognize and reason about the same concept despite variations in visual form, a basic ability of human reasoning. To address this challenge, we introduce the Visual Graph Arena (VGA), a dataset featuring six graph-based tasks designed to evaluate and improve AI systems' capacity for visual abstraction. VGA uses diverse graph layouts (e.g., Kamada-Kawai vs. planar) to test reasoning independent of visual form. Experiments with state-of-the-art vision models and multimodal LLMs reveal a striking divide: humans achieved near-perfect accuracy across tasks, while models totally failed on isomorphism detection and showed limited success in path/cycle tasks. We further identify behavioral anomalies suggesting pseudo-intelligent pattern matching rather than genuine understanding. These findings underscore fundamental limitations in current AI models for visual understanding. By isolating the challenge of representation-invariant reasoning, the VGA provides a framework to drive progress toward human-like conceptualization in AI visual models. The Visual Graph Arena is available at: \href{https://vga.csail.mit.edu/}{vga.csail.mit.edu}
- Abstract(参考訳): マルチモーダルな大言語モデルの最近の進歩は、視覚的質問応答のブレークスルーを促している。
しかし、視覚的形態の違いにもかかわらず、同じ概念を認識し、推論する能力である「概念化」は、人間の推論の基本的な能力である。
この課題に対処するために、視覚的抽象化のためのAIシステムの能力を評価し改善するために設計された6つのグラフベースのタスクを備えたデータセットであるVisual Graph Arena(VGA)を紹介した。
VGAは、さまざまなグラフレイアウト(例えば、Kamada-Kawai vs. Planar)を使用して、視覚的な形式に依存しない推論をテストする。
最先端のビジョンモデルとマルチモーダルLCMを用いた実験では、人間はタスク間でほぼ完璧な精度を達成し、モデルは同型検出で完全に失敗し、パス/サイクルタスクにおいて限られた成功を示しました。
さらに,実際の理解よりも疑似知能パターンマッチングを示唆する行動異常を同定する。
これらの発見は、視覚的理解のための現在のAIモデルの基本的限界を画定している。
表現不変推論の課題を分離することにより、VGAは、AIビジュアルモデルにおける人間のような概念化に向けた前進を促進するためのフレームワークを提供する。
Visual Graph Arenaは以下で利用可能である。 \href{https://vga.csail.mit.edu/}{vga.csail.mit.edu}
関連論文リスト
- Illusory VQA: Benchmarking and Enhancing Multimodal Models on Visual Illusions [0.03495246564946555]
IllusionMNIST, IllusionFashionMNIST, IllusionAnimals, IllusionChar。
これらのデータセットは、視覚錯覚の認識と解釈において、最先端のマルチモーダルモデルの性能を評価するように設計されている。
論文 参考訳(メタデータ) (2024-12-11T07:51:18Z) - VAGUE: Visual Contexts Clarify Ambiguous Expressions [15.140825578254324]
目的のための視覚的コンテキストを統合するマルチモーダルAIシステムの能力を評価するベンチマークであるVAGUEを紹介する。
VAGUEは1.6Kの曖昧な文体表現で構成され、それぞれに画像と複数選択の解釈が組み合わされている。
我々の実験によると、既存のマルチモーダルAIモデルは話者の真の意図を推測するのに苦労している。
論文 参考訳(メタデータ) (2024-11-21T14:01:42Z) - Fill in the blanks: Rethinking Interpretability in vision [0.0]
我々は、新しい視点から視覚モデルの説明可能性を再考し、トレーニング中にモデルが学習した一般的な入力構造を探索する。
標準的なビジョンデータセットと事前トレーニングされたモデルの実験は、一貫性のあるパターンを明らかにし、追加のモデルに依存しない説明可能性ツールとして解釈できる。
論文 参考訳(メタデータ) (2024-11-15T15:31:06Z) - PuzzleVQA: Diagnosing Multimodal Reasoning Challenges of Language Models with Abstract Visual Patterns [69.17409440805498]
基本概念に基づいた抽象パターンを用いた大規模マルチモーダルモデルの評価を行った。
単純な抽象パターンをうまく一般化できないことが分かりました。
系統解析の結果, GPT-4Vの主なボトルネックは視覚知覚の弱さと誘導的推論能力であることがわかった。
論文 参考訳(メタデータ) (2024-03-20T05:37:24Z) - Look, Remember and Reason: Grounded reasoning in videos with language
models [5.3445140425713245]
マルチテンポラル言語モデル(LM)は、最近ビデオ上の高レベル推論タスクにおいて有望な性能を示した。
オブジェクト検出,再識別,追跡など,低レベルなサロゲートタスクに対するLMエンドツーエンドのトレーニングを提案し,低レベルな視覚能力を備えたモデルを実現する。
我々は、ACRE、CATER、Some-Else、STARデータセットからの多様な視覚的推論タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-06-30T16:31:14Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks
for Visual Question Answering [79.22069768972207]
本稿では,VQA-GNNモデルを提案する。VQA-GNNは,非構造化知識と構造化知識の双方向融合を行い,統一知識表現を得る。
具体的には,シーングラフとコンセプトグラフを,QAコンテキストを表すスーパーノードを介して相互接続する。
課題2つのVQAタスクにおいて,本手法はVCRが3.2%,GQAが4.6%,強いベースラインVQAが3.2%向上し,概念レベルの推論を行う上での強みが示唆された。
論文 参考訳(メタデータ) (2022-05-23T17:55:34Z) - Cross-modal Knowledge Reasoning for Knowledge-based Visual Question
Answering [27.042604046441426]
KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
本稿では,視覚的,意味的,事実的な視点から,複数の知識グラフによる画像を記述する。
我々は、モデルを一連のメモリベースの推論ステップに分解し、それぞれがGラーフベースのR ead、U pdate、C ontrolによって実行される。
我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセットに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2020-08-31T23:25:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。