論文の概要: MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning
- arxiv url: http://arxiv.org/abs/2506.22992v1
- Date: Sat, 28 Jun 2025 19:44:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.662488
- Title: MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning
- Title(参考訳): MARBLE:マルチモーダル空間推論と計画のためのハードベンチマーク
- Authors: Yulun Jiang, Yekun Chai, Maria Brbić, Michael Moor,
- Abstract要約: 複数のモダリティから情報を処理し、それを段階的に分析する能力は、人工知能を進化させる上で重要な課題である。
本稿では,マルチモーダル言語モデルの精査を目的としたマルチモーダル推論ベンチマークであるMARBLEを提案する。
現在のMLLMはMARBLEでは性能が悪く、M-Portalではほぼランダムな性能、M-Cubeでは0%の精度が得られる。
- 参考スコア(独自算出の注目度): 10.602434753538535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to process information from multiple modalities and to reason through it step-by-step remains a critical challenge in advancing artificial intelligence. However, existing reasoning benchmarks focus on text-only reasoning, or employ multimodal questions that can be answered by directly retrieving information from a non-text modality. Thus, complex reasoning remains poorly understood in multimodal domains. Here, we present MARBLE, a challenging multimodal reasoning benchmark that is designed to scrutinize multimodal language models (MLLMs) in their ability to carefully reason step-by-step through complex multimodal problems and environments. MARBLE is composed of two highly challenging tasks, M-Portal and M-Cube, that require the crafting and understanding of multistep plans under spatial, visual, and physical constraints. We find that current MLLMs perform poorly on MARBLE -- all the 12 advanced models obtain near-random performance on M-Portal and 0% accuracy on M-Cube. Only in simplified subtasks some models outperform the random baseline, indicating that complex reasoning is still a challenge for existing MLLMs. Moreover, we show that perception remains a bottleneck, where MLLMs occasionally fail to extract information from the visual inputs. By shedding a light on the limitations of MLLMs, we hope that MARBLE will spur the development of the next generation of models with the ability to reason and plan across many, multimodal reasoning steps.
- Abstract(参考訳): 複数のモダリティから情報を処理し、それを段階的に分析する能力は、人工知能を進化させる上で重要な課題である。
しかし、既存の推論ベンチマークでは、テキストのみの推論に焦点が当てられている。
したがって、複素推論はマルチモーダル領域ではよく理解されていない。
本稿では,マルチモーダル言語モデル (MLLM) を,複雑なマルチモーダル問題や環境を段階的に追従する機能として精査するために設計された,挑戦的なマルチモーダル推論ベンチマークであるMARBLEを提案する。
MARBLEはM-PortalとM-Cubeという2つの非常に困難なタスクで構成されており、空間的、視覚的、物理的制約の下での多段階計画の作成と理解を必要としている。
現在のMLLMはMARBLEでは性能が悪く、M-Portalではほぼランダムな性能、M-Cubeでは0%の精度が得られる。
単純化されたサブタスクにおいてのみ、いくつかのモデルはランダムなベースラインよりも優れており、複雑な推論は依然として既存のMLLMにとって課題であることを示している。
さらに,MLLMが視覚入力から情報を抽出できない場合も,認識がボトルネックとして残ることを示す。
MLLMの限界に光を当てることで、MARBLEが次世代モデルの開発を加速し、多くのマルチモーダルな推論ステップにまたがって推論と計画を行うことができるようになることを願っている。
関連論文リスト
- MLLMs are Deeply Affected by Modality Bias [158.64371871084478]
MLLM(Multimodal Large Language Models)の最近の進歩は、テキストや画像などの多様なモダリティを統合する上で、有望な成果を示している。
MLLMはモダリティバイアスに強く影響され、しばしば言語に依存し、視覚入力のような他のモダリティを過小評価する。
本稿では,MLLMはモダリティバイアスの影響を強く受けており,様々なタスクにまたがってその発現を明らかにする。
論文 参考訳(メタデータ) (2025-05-24T11:49:31Z) - Grounded Chain-of-Thought for Multimodal Large Language Models [66.04061083611863]
我々は,GCoT(Gunded Chain-of-Thought)と呼ばれるマルチモーダル大規模言語モデル(MLLM)の新しい学習タスクを提案する。
GCoTは、MLLMが関連する視覚的手がかりを段階的に認識し、グラウンド化するのを支援し、グラウンド化座標による正しい解を直感的に予測する。
この作業を容易にするために,5,033画像に対して24,022 GCoT例からなるマルチモーダルグラウンドド・チェーン・オブ・ソート(MM-GCoT)と呼ばれるデータセットを慎重に設計し,構築する。
論文 参考訳(メタデータ) (2025-03-17T04:07:47Z) - Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models [26.17300490736624]
MLLM(Multimodal Large Language Models)は、一貫した視覚・テキスト入力で主に訓練され、テストされる。
本稿では,MLLMの意味的ミスマッチの検出と推論能力を評価するためのマルチモーダル不整合推論ベンチマークを提案する。
我々は6つの最先端MLLMを評価し、o1のような専用マルチモーダル推論能力を持つモデルは、その性能を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-22T01:52:37Z) - Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。
EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。
EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文 参考訳(メタデータ) (2025-01-09T18:55:52Z) - Benchmarking Large and Small MLLMs [71.78055760441256]
大規模なマルチモーダル言語モデル(MLLM)は、マルチモーダルコンテンツの理解と生成において顕著な進歩を遂げている。
しかし、そのデプロイメントは、遅い推論、高い計算コスト、デバイス上のアプリケーションに対する非現実性など、重大な課題に直面している。
LLavaシリーズモデルとPhi-3-Visionによって実証された小さなMLLMは、より高速な推論、デプロイメントコストの削減、ドメイン固有のシナリオを扱う能力を備えた有望な代替手段を提供する。
論文 参考訳(メタデータ) (2025-01-04T07:44:49Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - Quantifying and Mitigating Unimodal Biases in Multimodal Large Language Models: A Causal Perspective [9.633811630889237]
本稿では,視覚質問応答(VQA)問題におけるバイアスを解釈するための因果的枠組みを提案する。
マルチホップ推論を必要とする12,000の挑戦VQAインスタンスを備えた新しいデータセットを導入する。
実験の結果, MLLMはMOREに悪影響を及ぼし, 強い一方向偏差と限定的な意味理解を示すことがわかった。
論文 参考訳(メタデータ) (2024-03-27T08:38:49Z) - A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。