Fugu-MT 論文翻訳(概要): MPCC: A Novel Benchmark for Multimodal Planning with Complex Constraints in Multimodal Large Language Models

論文の概要: MPCC: A Novel Benchmark for Multimodal Planning with Complex Constraints in Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2507.23382v1
Date: Thu, 31 Jul 2025 09:59:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-01 17:19:09.432082
Title: MPCC: A Novel Benchmark for Multimodal Planning with Complex Constraints in Multimodal Large Language Models
Title（参考訳）: MPCC:マルチモーダル大規模言語モデルにおける複雑な制約付きマルチモーダルプランニングのための新しいベンチマーク
Authors: Yiyan Ji, Haoran Chen, Qiguang Chen, Chengyue Wu, Libo Qin, Wanxiang Che,
Abstract要約: マルチモーダル計画能力は、マルチモーダルコンテキストによるタスク実行の予測、推論、設計のステップを指す。現在のベンチマークでは,(1)マルチモーダルな実世界の計画能力を直接評価できないこと,(2)モダリティ間の制約や暗黙の制約が欠けていること,の2つの課題に直面している。本稿では,MLLMのマルチモーダル制約処理能力を体系的に評価する最初のベンチマークであるMPCC(Multimodal Planning with Complex Constraints)を紹介する。
参考スコア（独自算出の注目度）: 42.30936364450115
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Multimodal planning capabilities refer to the ability to predict, reason, and design steps for task execution with multimodal context, which is essential for complex reasoning and decision-making across multiple steps. However, current benchmarks face two key challenges: (1) they cannot directly assess multimodal real-world planning capabilities, and (2) they lack constraints or implicit constraints across modalities. To address these issues, we introduce Multimodal Planning with Complex Constraints (MPCC), the first benchmark to systematically evaluate MLLMs' ability to handle multimodal constraints in planning. To address the first challenge, MPCC focuses on three real-world tasks: Flight Planning, Calendar Planning, and Meeting Planning. To solve the second challenge, we introduce complex constraints (e.g. budget, temporal, and spatial) in these tasks, with graded difficulty levels (EASY, MEDIUM, HARD) to separate constraint complexity from search space expansion. Experiments on 13 advanced MLLMs reveal significant challenges: closed-source models achieve only 21.3% feasible plans, while open-source models average below 11%. Additionally, we observe that MLLMs are highly sensitive to constraint complexity and that traditional multimodal prompting strategies fail in multi-constraint scenarios. Our work formalizes multimodal constraints in planning, provides a rigorous evaluation framework, and highlights the need for advancements in constraint-aware reasoning for real-world MLLM applications.
Abstract（参考訳）: マルチモーダル計画能力は、複数のステップにわたる複雑な推論と意思決定に不可欠であるマルチモーダルコンテキストによるタスク実行の予測、推論、設計のステップを指す。しかし、現在のベンチマークでは、(1)マルチモーダルな実世界の計画能力を直接評価できないこと、(2)モダリティ間の制約や暗黙の制約が欠けていること、の2つの主要な課題に直面している。これらの問題に対処するために,MLLMの計画におけるマルチモーダル制約を扱う能力を体系的に評価する最初のベンチマークであるMPCC(Multimodal Planning with Complex Constraints)を導入する。最初の課題に対処するため、MPCCはフライトプランニング、カレンダープランニング、ミーティングプランニングの3つの現実的なタスクに焦点を当てている。第2の課題を解決するため、これらのタスクに複雑な制約(予算、時間、空間)を導入し、難易度(EASY、メディア、HARD)を定め、検索空間の拡張から制約複雑性を分離する。クローズドソースモデルは21.3%しか実現できないが、オープンソースモデルは11%以下である。さらに、MLLMは制約複雑性に非常に敏感であり、従来のマルチモーダル・プロンプト戦略がマルチ制約シナリオで失敗することを観察する。本研究は計画におけるマルチモーダル制約を定式化し,厳密な評価フレームワークを提供し,実世界のMLLMアプリケーションに対する制約認識推論の進歩の必要性を強調した。

関連論文リスト

MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning [10.602434753538535]
複数のモダリティから情報を処理し、それを段階的に分析する能力は、人工知能を進化させる上で重要な課題である。本稿では,マルチモーダル言語モデルの精査を目的としたマルチモーダル推論ベンチマークであるMARBLEを提案する。現在のMLLMはMARBLEでは性能が悪く、M-Portalではほぼランダムな性能、M-Cubeでは0%の精度が得られる。
論文参考訳（メタデータ） (2025-06-28T19:44:32Z)
EIFBENCH: Extremely Complex Instruction Following Benchmark for Large Language Models [65.48902212293903]
大規模言語モデル(LLM)を評価するためのEIFBENCH(Extremely Complex Instruction following Benchmark)を提案する。 EIFBENCHにはマルチタスクシナリオが含まれており、多様なタスクタイプを同時に総合的に評価することができる。また,LLMのマルチタスクワークフローを正確に満たす能力を高めるために,セグメントポリシー最適化(SegPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-10T02:39:55Z)
Decompose, Plan in Parallel, and Merge: A Novel Paradigm for Large Language Models based Planning with Multiple Constraints [31.631832677979826]
本稿では,並列計画パラダイムを提案し,並列におけるサブタスク計画とマージを最終計画(DPPM)に分割する。具体的には、制約に基づいて複雑なタスクをサブタスクに分解し、各サブタスクのサブプランを並列に生成し、それらをグローバルプランにマージする。実験の結果,DPPMは旅行計画タスクにおいて既存の手法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-06-03T09:33:13Z)
RBF++: Quantifying and Optimizing Reasoning Boundaries across Measurable and Unmeasurable Capabilities for Chain-of-Thought Reasoning [60.84707424369494]
CoT(Chain-of-Thought)推論は、複雑なタスクにおける大規模言語モデル(LLM)の強化に有効であることが証明されている。 CoT 機能の計測可能なバウンダリの評価と最適化を行うフレームワークである Reasoning Boundary Framework++ (RBF++) を紹介する。
論文参考訳（メタデータ） (2025-05-19T16:25:55Z)
HyperTree Planning: Enhancing LLM Reasoning via Hierarchical Thinking [109.09735490692202]
提案するHyperTree Planning(HTP)は,高木構造プランニングアウトラインを構成する新しい推論パラダイムである。実験ではHTPの有効性を実証し、Gemini-1.5-ProによるTravelPlannerベンチマークで最先端の精度を実現し、o1-previewよりも3.6倍の性能向上を実現した。
論文参考訳（メタデータ） (2025-05-05T02:38:58Z)
MACI: Multi-Agent Collaborative Intelligence for Adaptive Reasoning and Temporal Planning [2.5200794639628032]
Multi-Agent Collaborative Intelligence (MACI) 1)依存性グラフを生成しながらタスクのすべての役割と制約を特定し、定式化し、洗練するメタプランナー(MP)と、現実的で実践的な制約を保証するための常識的な拡張、2)計画とタスク固有の要求に対処するためのエージェントの収集、3)計画調整を必要に応じて管理する実行時モニタの3つの主要なコンポーネントから構成されるフレームワーク。
論文参考訳（メタデータ） (2025-01-28T03:57:22Z)
EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios [53.26658545922884]
EgoPlan-Bench2は,MLLMの計画能力を評価するためのベンチマークである。我々は,21の競争的MLLMを評価し,その限界を詳細に分析した結果,実世界の計画において大きな課題に直面していることが明らかとなった。 EgoPlan-Bench2におけるGPT-4Vの10.24倍の性能向上を図る。
論文参考訳（メタデータ） (2024-12-05T18:57:23Z)
Planning Anything with Rigor: General-Purpose Zero-Shot Planning with LLM-based Formalized Programming [13.246017517159043]
大規模言語モデル(LLM)は近年,計画問題の解決に強い可能性を示している。 LLpreview は LLM を利用して,計画上の問題から重要な情報を抽出し,それらをスクラッチから最適化するフレームワークである。 GPToとClaude 3.5 Sonnetの9つのタスクに対して,LLが平均83.7%,86.8%の最適速度で達成できることを実証した。
論文参考訳（メタデータ） (2024-10-15T23:20:54Z)
Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。 CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文参考訳（メタデータ） (2024-09-19T04:13:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。