論文の概要: MMPlanner: Zero-Shot Multimodal Procedural Planning with Chain-of-Thought Object State Reasoning
- arxiv url: http://arxiv.org/abs/2509.21662v1
- Date: Thu, 25 Sep 2025 22:31:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.058717
- Title: MMPlanner: Zero-Shot Multimodal Procedural Planning with Chain-of-Thought Object State Reasoning
- Title(参考訳): MMPlanner:Chain-of-Thoughtオブジェクト状態推論によるゼロショットマルチモーダル手続き計画
- Authors: Afrina Tabassum, Bin Guo, Xiyao Ma, Hoda Eldardiry, Ismini Lourentzou,
- Abstract要約: マルチモーダル手続き計画(MPP)は、テキストと画像を組み合わせたステップバイステップの指示を生成することを目的としている。
ゼロショットMPPフレームワークであるMMPlannerについて述べる。
MMPlannerは最先端のパフォーマンスを実現し、テキストプランニングを+6.8%改善し、クロスモーダルアライメントを+11.9%改善し、ビジュアルステップオーダを+26.7%改善した。
- 参考スコア(独自算出の注目度): 13.688837782088674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Procedural Planning (MPP) aims to generate step-by-step instructions that combine text and images, with the central challenge of preserving object-state consistency across modalities while producing informative plans. Existing approaches often leverage large language models (LLMs) to refine textual steps; however, visual object-state alignment and systematic evaluation are largely underexplored. We present MMPlanner, a zero-shot MPP framework that introduces Object State Reasoning Chain-of-Thought (OSR-CoT) prompting to explicitly model object-state transitions and generate accurate multimodal plans. To assess plan quality, we design LLM-as-a-judge protocols for planning accuracy and cross-modal alignment, and further propose a visual step-reordering task to measure temporal coherence. Experiments on RECIPEPLAN and WIKIPLAN show that MMPlanner achieves state-of-the-art performance, improving textual planning by +6.8%, cross-modal alignment by +11.9%, and visual step ordering by +26.7%
- Abstract(参考訳): マルチモーダル・プロシージャ・プランニング(MPP)は、テキストと画像を組み合わせたステップ・バイ・ステップの指示を生成することを目的とする。
既存のアプローチでは、大きな言語モデル(LLM)を利用してテキストのステップを洗練することが多いが、視覚的オブジェクト状態アライメントと体系的評価は、ほとんど未熟である。
我々は、オブジェクト状態遷移を明示的にモデル化し、正確なマルチモーダルプランを生成するために、オブジェクト状態推論チェーン(OSR-CoT)を導入したゼロショットMPPフレームワークであるMMPlannerを紹介する。
計画品質を評価するため,計画の正確さとモーダルアライメントを計画するためのLCM-as-a-judgeプロトコルを設計し,時間的コヒーレンスを測定するための視覚的段階調整タスクを提案する。
RECIPEPLANとWIKIPLANの実験では、MMPlannerは最先端のパフォーマンスを達成し、テキストプランニングを+6.8%改善し、クロスモーダルアライメントを+11.9%改善し、ビジュアルステップオーダを+26.7%改善した。
関連論文リスト
- Show and Guide: Instructional-Plan Grounded Vision and Language Model [9.84151565227816]
MM-PlanLLMは,最初のマルチモーダル計画追従言語モデルである。
会話ビデオモーメント検索と視覚インフォームドステップ生成という,2つの重要なタスクを通じて,クロスモダリティを実現する。
MM-PlanLLMは、新しいマルチタスク・マルチステージアプローチを用いて訓練される。
論文 参考訳(メタデータ) (2024-09-27T18:20:24Z) - PDDLEGO: Iterative Planning in Textual Environments [56.12148805913657]
テキスト環境における計画は、現在のモデルにおいても長年にわたる課題であることが示されている。
我々は,あるサブゴールの部分的な計画に導く計画表現を反復的に構築するPDDLEGOを提案する。
数ショットのPDDLEGOで作成するプランは,Coin Collectorシミュレーションでエンドツーエンドのプランを生成するよりも43%効率がよいことを示す。
論文 参考訳(メタデータ) (2024-05-30T08:01:20Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought [95.37585041654535]
Embodied AIは、ロボットが物理的な環境で長時間のタスクを遂行するためのアクションシーケンスを計画し、実行することができる。
本稿では,EmbodiedGPTを紹介する。EmbodiedGPTは,エンボディドAIのためのエンドツーエンドのマルチモーダル基盤モデルである。
実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。
論文 参考訳(メタデータ) (2023-05-24T11:04:30Z) - Multimodal Procedural Planning via Dual Text-Image Prompting [78.73875275944711]
エンボディードエージェントは、タスクを完了するための人間の指示に従う際、顕著なパフォーマンスを達成した。
提案するマルチモーダル手続き計画タスクでは,高レベルな目標をモデルに与え,ペア化されたテキストイメージステップの計画を生成する。
MPPの主な課題は、モダリティを越えた計画の情報性、時間的一貫性、正確性を保証することである。
論文 参考訳(メタデータ) (2023-05-02T21:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。