論文の概要: Vision Language Models Cannot Plan, but Can They Formalize?
- arxiv url: http://arxiv.org/abs/2509.21576v1
- Date: Thu, 25 Sep 2025 20:55:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.008548
- Title: Vision Language Models Cannot Plan, but Can They Formalize?
- Title(参考訳): 視覚言語モデルは計画できないが、形式化できるのか?
- Authors: Muyu He, Yuxi Zheng, Yuchen Liu, Zijian An, Bill Cai, Jiani Huang, Lifeng Zhou, Feng Liu, Ziyang Li, Li Zhang,
- Abstract要約: 本稿では,1ショット,オープンボキャブラリ,マルチモーダルPDDL形式化に対処する5つのVLM-as-formalizerパイプラインについて述べる。
VLMは、必要となるオブジェクト関係の網羅的な集合を捕捉できないことが多いため、言語よりも視覚的なボトルネックを明らかにする。
- 参考スコア(独自算出の注目度): 28.52711774279781
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The advancement of vision language models (VLMs) has empowered embodied agents to accomplish simple multimodal planning tasks, but not long-horizon ones requiring long sequences of actions. In text-only simulations, long-horizon planning has seen significant improvement brought by repositioning the role of LLMs. Instead of directly generating action sequences, LLMs translate the planning domain and problem into a formal planning language like the Planning Domain Definition Language (PDDL), which can call a formal solver to derive the plan in a verifiable manner. In multimodal environments, research on VLM-as-formalizer remains scarce, usually involving gross simplifications such as predefined object vocabulary or overly similar few-shot examples. In this work, we present a suite of five VLM-as-formalizer pipelines that tackle one-shot, open-vocabulary, and multimodal PDDL formalization. We evaluate those on an existing benchmark while presenting another two that for the first time account for planning with authentic, multi-view, and low-quality images. We conclude that VLM-as-formalizer greatly outperforms end-to-end plan generation. We reveal the bottleneck to be vision rather than language, as VLMs often fail to capture an exhaustive set of necessary object relations. While generating intermediate, textual representations such as captions or scene graphs partially compensate for the performance, their inconsistent gain leaves headroom for future research directions on multimodal planning formalization.
- Abstract(参考訳): 視覚言語モデル(VLM)の進歩は、単純なマルチモーダル計画タスクを達成するために、エンボディードエージェントに権限を与えてきたが、長いアクションのシーケンスを必要とするロングホライゾンではない。
テキストのみのシミュレーションでは、LLMの役割を再配置することによって、長期計画が大幅に改善されている。
アクションシーケンスを直接生成する代わりに、LCMは計画ドメインと問題を計画ドメイン定義言語(PDDL)のような形式的な計画言語に変換する。
マルチモーダル環境では、VLM-as-formalizerの研究は依然として不十分であり、通常、事前定義されたオブジェクト語彙や、過度に類似した少数ショットの例のような大まかな単純化が伴う。
本稿では,1ショット,オープンボキャブラリ,マルチモーダルPDDL形式化に対応する5つのVLM-as-formalizerパイプラインについて述べる。
我々は、既存のベンチマークでそれらを評価し、また、信頼性、マルチビュー、低品質の画像で計画する上で初めて考慮すべき2つのことを提示する。
VLM-as-formalizerは、エンド・ツー・エンドのプラン生成よりも大幅に優れていると結論付けている。
VLMは、必要となるオブジェクト関係の網羅的な集合を捕捉できないことが多いため、言語よりも視覚的なボトルネックを明らかにする。
キャプションやシーングラフのような中間的なテキスト表現を生成することは、部分的にパフォーマンスを補うが、その矛盾した利得は、将来のマルチモーダルプランニングの形式化研究の方向に向かう。
関連論文リスト
- MATEO: A Multimodal Benchmark for Temporal Reasoning and Planning in LVLMs [2.1793134762413433]
AIエージェントは、知覚のオーケストレーション、サブゴール分解、実行を含む複雑な目標を達成する計画を立てる必要がある。
時間的実行に対する基礎モデルの理解に関する既存の研究は、自動的に導出されたアノテーション、線形連鎖としてのTEOの近似、テキストのみの入力に限られる。
実世界の計画に必要なLVLM(Large Vision Language Models)の時間的推論能力の評価と改善を目的としたベンチマークであるMATEOを紹介する。
論文 参考訳(メタデータ) (2026-02-16T09:41:50Z) - Seeing Beyond Words: Self-Supervised Visual Learning for Multimodal Large Language Models [53.06230963851451]
JARVISは、MLLMの自己教師型視覚強調のためのJEPAにインスパイアされたフレームワークである。
JARVISは,MLLMの自己教師型視覚強調のためのJEPAに着想を得たフレームワークである。
論文 参考訳(メタデータ) (2025-12-17T19:01:34Z) - Integrating Visual Interpretation and Linguistic Reasoning for Math Problem Solving [61.992824291296444]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。
本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文 参考訳(メタデータ) (2025-05-23T08:18:00Z) - Unifying Inference-Time Planning Language Generation [27.998081619086477]
計画の行は、計画を生成するのではなく、計画言語で形式的な表現を生成するためにLLMを使用する。
中間表現に基づく統一フレームワークを提案する。
我々は、言語生成パイプラインを計画するためのレシピを提供し、それらの様々なコンポーネントの有効性を示す一連の結論を導き出す。
論文 参考訳(メタデータ) (2025-05-20T17:25:23Z) - On the Limit of Language Models as Planning Formalizers [4.145422873316857]
大規模言語モデルは、地上環境では実行不可能で検証不可能な計画を作成することが発見されている。
新たな作業のラインは、LLMをフォーマライザとして使用して、ある言語で計画領域を形式的に表現することに成功したことを示している。
この形式的表現は、計画を見つけるために決定論的に解決できる。
論文 参考訳(メタデータ) (2024-12-13T05:50:22Z) - Show and Guide: Instructional-Plan Grounded Vision and Language Model [9.84151565227816]
MM-PlanLLMは,最初のマルチモーダル計画追従言語モデルである。
会話ビデオモーメント検索と視覚インフォームドステップ生成という,2つの重要なタスクを通じて,クロスモダリティを実現する。
MM-PlanLLMは、新しいマルチタスク・マルチステージアプローチを用いて訓練される。
論文 参考訳(メタデータ) (2024-09-27T18:20:24Z) - LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - PDDLEGO: Iterative Planning in Textual Environments [56.12148805913657]
テキスト環境における計画は、現在のモデルにおいても長年にわたる課題であることが示されている。
我々は,あるサブゴールの部分的な計画に導く計画表現を反復的に構築するPDDLEGOを提案する。
数ショットのPDDLEGOで作成するプランは,Coin Collectorシミュレーションでエンドツーエンドのプランを生成するよりも43%効率がよいことを示す。
論文 参考訳(メタデータ) (2024-05-30T08:01:20Z) - EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。
EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。
また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - ISR-LLM: Iterative Self-Refined Large Language Model for Long-Horizon
Sequential Task Planning [7.701407633867452]
大規模言語モデル(LLM)は、タスクに依存しないプランナとして一般化性を高める可能性を提供する。
ISR-LLMは,反復的な自己複製プロセスを通じてLCMに基づく計画を改善する新しいフレームワークである。
ISR-LLM は現状の LLM ベースのプランナに比べてタスク達成率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-08-26T01:31:35Z) - AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。
本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。
幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文 参考訳(メタデータ) (2023-05-26T05:52:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。