論文の概要: LEGO-Puzzles: How Good Are MLLMs at Multi-Step Spatial Reasoning?
- arxiv url: http://arxiv.org/abs/2503.19990v1
- Date: Tue, 25 Mar 2025 18:21:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:20:52.506038
- Title: LEGO-Puzzles: How Good Are MLLMs at Multi-Step Spatial Reasoning?
- Title(参考訳): LEGO-Puzzles:MLLMはマルチステップ空間推論でどのくらい優れているか?
- Authors: Kexian Tang, Junyao Gao, Yanhong Zeng, Haodong Duan, Yanan Sun, Zhening Xing, Wenran Liu, Kaifeng Lyu, Kai Chen,
- Abstract要約: LEGO-Puzzlesは、11の異なるタスクにまたがる1,100の精巧にキュレートされた視覚的質問応答(VQA)サンプルで構成されている。
最も強力なMLLMでさえ、テストケースの約半分しか答えられません。
VQAタスクに加えて,組み立て図に続くLEGO画像を生成するMLLMの能力を評価する。
- 参考スコア(独自算出の注目度): 23.90259639381836
- License:
- Abstract: Multi-step spatial reasoning entails understanding and reasoning about spatial relationships across multiple sequential steps, which is crucial for tackling complex real-world applications, such as robotic manipulation, autonomous navigation, and automated assembly. To assess how well current Multimodal Large Language Models (MLLMs) have acquired this fundamental capability, we introduce \textbf{LEGO-Puzzles}, a scalable benchmark designed to evaluate both \textbf{spatial understanding} and \textbf{sequential reasoning} in MLLMs through LEGO-based tasks. LEGO-Puzzles consists of 1,100 carefully curated visual question-answering (VQA) samples spanning 11 distinct tasks, ranging from basic spatial understanding to complex multi-step reasoning. Based on LEGO-Puzzles, we conduct a comprehensive evaluation of state-of-the-art MLLMs and uncover significant limitations in their spatial reasoning capabilities: even the most powerful MLLMs can answer only about half of the test cases, whereas human participants achieve over 90\% accuracy. In addition to VQA tasks, we evaluate MLLMs' abilities to generate LEGO images following assembly illustrations. Our experiments show that only Gemini-2.0-Flash and GPT-4o exhibit a limited ability to follow these instructions, while other MLLMs either replicate the input image or generate completely irrelevant outputs. Overall, LEGO-Puzzles exposes critical deficiencies in existing MLLMs' spatial understanding and sequential reasoning capabilities, and underscores the need for further advancements in multimodal spatial reasoning.
- Abstract(参考訳): 多段階空間推論は、ロボット操作、自律ナビゲーション、自動組み立てといった複雑な現実世界のアプリケーションに取り組む上で重要な、複数のシーケンシャルステップにわたる空間的関係の理解と推論を必要とする。
MLLM(Multimodal Large Language Models, マルチモーダル大規模言語モデル)が、この基本的な能力をどのように獲得したかを評価するために、LEGOベースのタスクを通じてMLLMにおける \textbf{LEGO-Puzzles} と \textbf{sequential reasoning} の両方を評価するために設計されたスケーラブルなベンチマークを導入する。
LEGO-Puzzlesは、基本的な空間的理解から複雑な多段階推論まで、11の異なるタスクにまたがる1,100の精巧にキュレートされた視覚的質問応答(VQA)サンプルで構成されている。
LEGO-Puzzlesに基づいて、最先端のMLLMの包括的な評価を行い、その空間的推論能力の重大な制限を明らかにする。
VQAタスクに加えて,組み立て図に続くLEGO画像を生成するMLLMの能力を評価する。
実験の結果,Gemini-2.0-Flash と GPT-4o はこれらの命令に従う能力に制限があり,他のMLLM は入力画像を複製するか,全く無関係な出力を生成することがわかった。
LEGO-Puzzlesは、既存のMLLMの空間的理解とシーケンシャルな推論能力に重大な欠陥を露呈し、マルチモーダルな空間的推論のさらなる進歩の必要性を浮き彫りにしている。
関連論文リスト
- EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。
我々はEmbodiedBench内のプロプライエタリでオープンソースなMLLMを19件評価した。
MLLMは高レベルのタスクでは優れているが、低レベルの操作には苦労する。
論文 参考訳(メタデータ) (2025-02-13T18:11:34Z) - ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning [92.76959707441954]
我々はLLM推論性能を評価するための総合的な評価フレームワークであるZebraLogicを紹介した。
ZebraLogicは、制御可能で定量化可能な複雑さを持つパズルの生成を可能にする。
その結果,複雑性が増大するにつれて,精度が著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2025-02-03T06:44:49Z) - MTMT: Consolidating Multiple Thinking Modes to Form a Thought Tree for Strengthening LLM [15.687878949848182]
大規模言語モデル(LLM)は、複雑な論理的推論と多段階の問題解決を必要とするタスクの制限を示している。
MTMT(Multi-thinking Modes Tree)は,LLMと対話して思考木を構築する手法である。
GPT-4o miniをベースモデルとして,パラメータ設定の違いによるMTMTの性能評価を行った。
論文 参考訳(メタデータ) (2024-12-05T09:05:30Z) - MOSABench: Multi-Object Sentiment Analysis Benchmark for Evaluating Multimodal Large Language Models Understanding of Complex Image [16.040813949620958]
マルチオブジェクト感情分析に特化して設計された新しい評価データセットMOSABenchを紹介する。
MOSABenchの主なイノベーションは、距離ベースのターゲットアノテーション、出力を標準化するための評価のための後処理、改良されたスコアリング機構である。
本研究は、複雑な多目的感情分析タスクにおける精度を高めるためのMLLMの必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2024-11-25T09:00:36Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - Proximity QA: Unleashing the Power of Multi-Modal Large Language Models
for Spatial Proximity Analysis [45.62657605766754]
MLLM(Multi-modal large language model)は、目覚しい視覚言語能力を示す。
Proximity QAはMLLMが画像内のオブジェクト間の近接関係を推測できるように設計された新しいフレームワークである。
我々は,深度知覚と近接解析における近接性QAの優れた能力を評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-01-31T14:21:49Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。