論文の概要: Simulation to Rules: A Dual-VLM Framework for Formal Visual Planning
- arxiv url: http://arxiv.org/abs/2510.03182v1
- Date: Fri, 03 Oct 2025 16:57:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.501091
- Title: Simulation to Rules: A Dual-VLM Framework for Formal Visual Planning
- Title(参考訳): ルールのシミュレーション: 形式的視覚計画のためのデュアルVLMフレームワーク
- Authors: Yilun Hao, Yongchao Chen, Chuchu Fan, Yang Zhang,
- Abstract要約: 視覚モデル(VLM)は視覚計画に強い可能性を示すが、正確な空間的および長期的推論に苦慮する。
最近の研究は、VLMが視覚的な計画問題をPDDLファイルに変換することで、これらの利点を組み合わさっている。
本稿では,PDDL問題とドメインファイルの両方を自律的に生成し,視覚的計画を行うためのデュアルVLM誘導フレームワークであるVLを提案する。
- 参考スコア(独自算出の注目度): 24.06449850882964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Language Models (VLMs) show strong potential for visual planning but struggle with precise spatial and long-horizon reasoning. In contrast, Planning Domain Definition Language (PDDL) planners excel at long-horizon formal planning, but cannot interpret visual inputs. Recent works combine these complementary advantages by enabling VLMs to turn visual planning problems into PDDL files for formal planning. However, while VLMs can generate PDDL problem files satisfactorily, they struggle to accurately generate the PDDL domain files, which describe all the planning rules. As a result, prior methods rely on human experts to predefine domain files or on constant environment access for refinement. We propose VLMFP, a Dual-VLM-guided framework that can autonomously generate both PDDL problem and domain files for formal visual planning. VLMFP introduces two VLMs to ensure reliable PDDL file generation: A SimVLM that simulates action consequences based on input rule descriptions, and a GenVLM that generates and iteratively refines PDDL files by comparing the PDDL and SimVLM execution results. VLMFP unleashes multiple levels of generalizability: The same generated PDDL domain file works for all the different instances under the same problem, and VLMs generalize to different problems with varied appearances and rules. We evaluate VLMFP with 6 grid-world domains and test its generalization to unseen instances, appearance, and game rules. On average, SimVLM accurately describes 95.5%, 82.6% of scenarios, simulates 85.5%, 87.8% of action sequence, and judges 82.4%, 85.6% goal reaching for seen and unseen appearances, respectively. With the guidance of SimVLM, VLMFP can generate PDDL files to reach 70.0%, 54.1% valid plans for unseen instances in seen and unseen appearances, respectively. Project page: https://sites.google.com/view/vlmfp.
- Abstract(参考訳): 視覚言語モデル(VLM)は視覚計画に強い可能性を示すが、正確な空間的および長期的推論に苦慮する。
対照的に、プランニングドメイン定義言語(PDDL)プランナーは、長期の正式な計画において優れているが、視覚的な入力を解釈することはできない。
最近の研究は、VLMが視覚計画問題をPDDLファイルに変換することで、これらの相補的な利点を併せ持っている。
しかしながら、VLMはPDDL問題ファイルを生成することができるが、すべてのプランニングルールを記述するPDDLドメインファイルの正確な生成に苦慮している。
その結果、事前の手法は、ドメインファイルの事前定義や改善のための環境アクセスに人間の専門家に依存している。
VLMFPは,PDDL問題とドメインファイルの両方を自律的に生成し,形式的な視覚的計画を行うための,デュアルVLM誘導フレームワークである。
VLMFPは、入力ルール記述に基づいてアクションの結果をシミュレートするSimVLMと、PDDLとSimVLMの実行結果を比較してPDDLファイルを生成して反復的に洗練するGenVLMの2つのVLMを導入している。
同一生成されたPDDLドメインファイルは同じ問題の下ですべての異なるインスタンスで動作し、VLMは様々な外観と規則で異なる問題に一般化する。
VLMFPを6つのグリッドワールドドメインで評価し、未確認のインスタンス、外観、ゲームルールへの一般化を検証した。
平均して、SimVLMは95.5%、82.6%のシナリオを正確に記述し、85.5%、87.8%のアクションシーケンスをシミュレートし、82.4%、85.6%のゴールが目に見えるように到達している。
SimVLMの指導により、VLMFPはPDDLファイルを生成して70.0%、54.1%の有効プランを表示できる。
プロジェクトページ: https://sites.google.com/view/vlmfp.com
関連論文リスト
- Leveraging Environment Interaction for Automated PDDL Translation and Planning with Large Language Models [7.3238629831871735]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて顕著な性能を示している。
潜在的な解決策として、計画ドメイン定義言語(PDDL)へのプランニングの問題が提案されている。
LLMと環境フィードバックを利用してPDDLドメインと問題記述ファイルを自動生成する手法を提案する。
論文 参考訳(メタデータ) (2024-07-17T19:50:51Z) - PDDLEGO: Iterative Planning in Textual Environments [56.12148805913657]
テキスト環境における計画は、現在のモデルにおいても長年にわたる課題であることが示されている。
我々は,あるサブゴールの部分的な計画に導く計画表現を反復的に構築するPDDLEGOを提案する。
数ショットのPDDLEGOで作成するプランは,Coin Collectorシミュレーションでエンドツーエンドのプランを生成するよりも43%効率がよいことを示す。
論文 参考訳(メタデータ) (2024-05-30T08:01:20Z) - NL2Plan: Robust LLM-Driven Planning from Minimal Text Descriptions [6.225699609028632]
NL2Planは、最小限の自然言語記述から完全なPDDLタスクを生成する最初の完全自動システムである。
我々は,NL2Planを7つの計画領域で評価するが,そのうち5つは新規であり,LLMトレーニングデータには含まれない。
論文 参考訳(メタデータ) (2024-05-07T11:27:13Z) - PROC2PDDL: Open-Domain Planning Representations from Texts [56.627183903841164]
Proc2PDDLは、専門家によるPDDL表現と組み合わせたオープンドメインの手続きテキストを含む最初のデータセットである。
以上の結果から, GPT-3.5は0%, GPT-4は35%, Proc2PDDLは極めて困難であることが示唆された。
論文 参考訳(メタデータ) (2024-02-29T19:40:25Z) - Automating the Generation of Prompts for LLM-based Action Choice in PDDL Planning [59.543858889996024]
大規模言語モデル(LLM)は、様々なNLPタスクに革命をもたらした。
LLMを利用してPDDL入力からNLプロンプトを自動的に生成する方法を示す。
我々のNLプロンプトはPDDLプロンプトや単純なテンプレートベースのNLプロンプトよりも優れた性能が得られる。
論文 参考訳(メタデータ) (2023-11-16T11:55:27Z) - Leveraging Pre-trained Large Language Models to Construct and Utilize
World Models for Model-based Task Planning [39.29964085305846]
事前訓練済みの大規模言語モデルをプランナーとして直接使用する方法は、計画の正確性に限界があるため、現在は実用的ではない。
本研究では,ドメイン定義言語(PDDL)の計画において,明示的な世界(ドメイン)モデルを構築し,ドメインに依存しないプランナで計画する新たなパラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-24T08:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。