論文の概要: Vision Language Models Cannot Plan, but Can They Formalize?
- arxiv url: http://arxiv.org/abs/2509.21576v1
- Date: Thu, 25 Sep 2025 20:55:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.008548
- Title: Vision Language Models Cannot Plan, but Can They Formalize?
- Title(参考訳): 視覚言語モデルは計画できないが、形式化できるのか?
- Authors: Muyu He, Yuxi Zheng, Yuchen Liu, Zijian An, Bill Cai, Jiani Huang, Lifeng Zhou, Feng Liu, Ziyang Li, Li Zhang,
- Abstract要約: 本稿では,1ショット,オープンボキャブラリ,マルチモーダルPDDL形式化に対処する5つのVLM-as-formalizerパイプラインについて述べる。
VLMは、必要となるオブジェクト関係の網羅的な集合を捕捉できないことが多いため、言語よりも視覚的なボトルネックを明らかにする。
- 参考スコア(独自算出の注目度): 28.52711774279781
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The advancement of vision language models (VLMs) has empowered embodied agents to accomplish simple multimodal planning tasks, but not long-horizon ones requiring long sequences of actions. In text-only simulations, long-horizon planning has seen significant improvement brought by repositioning the role of LLMs. Instead of directly generating action sequences, LLMs translate the planning domain and problem into a formal planning language like the Planning Domain Definition Language (PDDL), which can call a formal solver to derive the plan in a verifiable manner. In multimodal environments, research on VLM-as-formalizer remains scarce, usually involving gross simplifications such as predefined object vocabulary or overly similar few-shot examples. In this work, we present a suite of five VLM-as-formalizer pipelines that tackle one-shot, open-vocabulary, and multimodal PDDL formalization. We evaluate those on an existing benchmark while presenting another two that for the first time account for planning with authentic, multi-view, and low-quality images. We conclude that VLM-as-formalizer greatly outperforms end-to-end plan generation. We reveal the bottleneck to be vision rather than language, as VLMs often fail to capture an exhaustive set of necessary object relations. While generating intermediate, textual representations such as captions or scene graphs partially compensate for the performance, their inconsistent gain leaves headroom for future research directions on multimodal planning formalization.
- Abstract(参考訳): 視覚言語モデル(VLM)の進歩は、単純なマルチモーダル計画タスクを達成するために、エンボディードエージェントに権限を与えてきたが、長いアクションのシーケンスを必要とするロングホライゾンではない。
テキストのみのシミュレーションでは、LLMの役割を再配置することによって、長期計画が大幅に改善されている。
アクションシーケンスを直接生成する代わりに、LCMは計画ドメインと問題を計画ドメイン定義言語(PDDL)のような形式的な計画言語に変換する。
マルチモーダル環境では、VLM-as-formalizerの研究は依然として不十分であり、通常、事前定義されたオブジェクト語彙や、過度に類似した少数ショットの例のような大まかな単純化が伴う。
本稿では,1ショット,オープンボキャブラリ,マルチモーダルPDDL形式化に対応する5つのVLM-as-formalizerパイプラインについて述べる。
我々は、既存のベンチマークでそれらを評価し、また、信頼性、マルチビュー、低品質の画像で計画する上で初めて考慮すべき2つのことを提示する。
VLM-as-formalizerは、エンド・ツー・エンドのプラン生成よりも大幅に優れていると結論付けている。
VLMは、必要となるオブジェクト関係の網羅的な集合を捕捉できないことが多いため、言語よりも視覚的なボトルネックを明らかにする。
キャプションやシーングラフのような中間的なテキスト表現を生成することは、部分的にパフォーマンスを補うが、その矛盾した利得は、将来のマルチモーダルプランニングの形式化研究の方向に向かう。
関連論文リスト
- Integrating Visual Interpretation and Linguistic Reasoning for Math Problem Solving [61.992824291296444]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。
本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文 参考訳(メタデータ) (2025-05-23T08:18:00Z) - On the Limit of Language Models as Planning Formalizers [4.145422873316857]
大規模言語モデルは、地上環境では実行不可能で検証不可能な計画を作成することが発見されている。
新たな作業のラインは、LLMをフォーマライザとして使用して、ある言語で計画領域を形式的に表現することに成功したことを示している。
この形式的表現は、計画を見つけるために決定論的に解決できる。
論文 参考訳(メタデータ) (2024-12-13T05:50:22Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - PDDLEGO: Iterative Planning in Textual Environments [56.12148805913657]
テキスト環境における計画は、現在のモデルにおいても長年にわたる課題であることが示されている。
我々は,あるサブゴールの部分的な計画に導く計画表現を反復的に構築するPDDLEGOを提案する。
数ショットのPDDLEGOで作成するプランは,Coin Collectorシミュレーションでエンドツーエンドのプランを生成するよりも43%効率がよいことを示す。
論文 参考訳(メタデータ) (2024-05-30T08:01:20Z) - EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。
EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。
また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - ISR-LLM: Iterative Self-Refined Large Language Model for Long-Horizon
Sequential Task Planning [7.701407633867452]
大規模言語モデル(LLM)は、タスクに依存しないプランナとして一般化性を高める可能性を提供する。
ISR-LLMは,反復的な自己複製プロセスを通じてLCMに基づく計画を改善する新しいフレームワークである。
ISR-LLM は現状の LLM ベースのプランナに比べてタスク達成率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-08-26T01:31:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。