論文の概要: Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs
- arxiv url: http://arxiv.org/abs/2504.15280v2
- Date: Sun, 27 Apr 2025 00:11:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.746145
- Title: Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs
- Title(参考訳): 別の視点から見る:MLLMにおけるマルチビュー理解の評価
- Authors: Chun-Hsiao Yeh, Chenyu Wang, Shengbang Tong, Ta-Ying Cheng, Ruoyu Wang, Tianzhe Chu, Yuexiang Zhai, Yubei Chen, Shenghua Gao, Yi Ma,
- Abstract要約: マルチビュー理解は、マルチモーダル大言語モデル(MLLM)において、エンボディエージェントとして使用されるための基本的な課題である。
我々は、90の現実世界のシーンに2,100人以上の注意深い注釈付き質問応答対のベンチマークであるAll-Angles Benchを提案する。
Gemini-2.0-Flash, Claude-3.7-Sonnet, GPT-4o など27のMLLMを人体評価器に対してベンチマークした結果, 性能差は顕著であった。
- 参考スコア(独自算出の注目度): 41.072699990427374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-view understanding, the ability to reconcile visual information across diverse viewpoints for effective navigation, manipulation, and 3D scene comprehension, is a fundamental challenge in Multi-Modal Large Language Models (MLLMs) to be used as embodied agents. While recent MLLMs have shown impressive advances in high-level reasoning and planning, they frequently fall short when confronted with multi-view geometric consistency and cross-view correspondence. To comprehensively evaluate the challenges of MLLMs in multi-view scene reasoning, we propose All-Angles Bench, a benchmark of over 2,100 human carefully annotated multi-view question-answer pairs across 90 diverse real-world scenes. Our six tasks (counting, attribute identification, relative distance, relative direction, object manipulation, and camera pose estimation) specifically test model's geometric correspondence and the capacity to align information consistently across views. Our extensive experiments, benchmark on 27 representative MLLMs including Gemini-2.0-Flash, Claude-3.7-Sonnet, and GPT-4o against human evaluators reveals a substantial performance gap, indicating that current MLLMs remain far from human-level proficiency. Through in-depth analysis, we show that MLLMs are particularly underperforming under two aspects: (1) cross-view correspondence for partially occluded views and (2) establishing the coarse camera poses. These findings highlight the necessity of domain-specific refinements or modules that embed stronger multi-view awareness. We believe that our All-Angles Bench offers valuable insights and contribute to bridging the gap between MLLMs and human-level multi-view understanding. The project and benchmark are publicly available at https://danielchyeh.github.io/All-Angles-Bench/.
- Abstract(参考訳): 多視点理解(Multi-view understanding)は、視覚情報を多視点で理解し、効果的なナビゲーション、操作、三次元シーンの理解を行う能力であり、マルチモーダル大規模言語モデル(MLLM)において、具体化エージェントとして使用する上での根本的な課題である。
近年のMLLMは、高レベルの推論と計画において顕著な進歩を見せているが、多視点の幾何整合性とクロスビュー対応に直面すると、しばしば不足する。
マルチビューシーン推論におけるMLLMの課題を包括的に評価するために,90の多様な実世界シーンを対象とした2,100人以上の人間が慎重に注釈付けされたマルチビュー質問応答ペアのベンチマークであるAll-Angles Benchを提案する。
我々の6つのタスク(カウント、属性識別、相対距離、相対方向、オブジェクト操作、カメラポーズ推定)は、特に、モデルの幾何学的対応と、ビュー全体にわたって情報を一貫した整列する能力をテストする。
Gemini-2.0-Flash, Claude-3.7-Sonnet, GPT-4o など27種類のMLLMをヒト評価器に対してベンチマークした結果,現在のMLLMは人間レベルの習熟度からかけ離れていることが明らかとなった。
奥行き分析により, MLLMは, 部分閉塞視に対するクロスビュー対応と, 粗いカメラポーズの確立の2つの面において, 特に性能が劣っていることが明らかとなった。
これらの知見は、より強力なマルチビュー認識を組み込むドメイン固有の改善やモジュールの必要性を浮き彫りにしている。
われわれはオールアングルベンチが貴重な洞察を与え、MLLMと人間レベルのマルチビュー理解のギャップを埋めることに貢献していると信じている。
プロジェクトとベンチマークはhttps://danielchyeh.github.io/All-Angles-Bench/で公開されている。
関連論文リスト
- CameraBench: Benchmarking Visual Reasoning in MLLMs via Photography [12.305953690308085]
大規模言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)は、非常に高度な人工知能を備えている。
OpenAI o1やGemini 2.0 Flash Thinkingのような推論モデルを含む最近の進歩は、この機能を開放した。
写真は、物理がカメラパラメータと相互作用する物理世界の視覚的なスナップショットであるため、写真関連のタスクに特に焦点をあてる。
論文 参考訳(メタデータ) (2025-04-14T10:53:44Z) - NuPlanQA: A Large-Scale Dataset and Benchmark for Multi-View Driving Scene Understanding in Multi-Modal Large Language Models [11.184459657989914]
シーン理解のためのマルチビュー・マルチモーダル評価ベンチマークであるNuPlanQA-Evalを紹介する。
また,NuPlanQA-1Mは,実世界の視覚的質問応答(VQA)ペア100万個からなる大規模データセットである。
評価の結果,エゴ中心の視点から,既存のMLLMがシーン特有の知覚と空間的推論を駆動する上で直面する重要な課題が明らかになった。
論文 参考訳(メタデータ) (2025-03-17T03:12:39Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - Proximity QA: Unleashing the Power of Multi-Modal Large Language Models
for Spatial Proximity Analysis [45.62657605766754]
MLLM(Multi-modal large language model)は、目覚しい視覚言語能力を示す。
Proximity QAはMLLMが画像内のオブジェクト間の近接関係を推測できるように設計された新しいフレームワークである。
我々は,深度知覚と近接解析における近接性QAの優れた能力を評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-01-31T14:21:49Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。