論文の概要: Simulation to Rules: A Dual-VLM Framework for Formal Visual Planning
- arxiv url: http://arxiv.org/abs/2510.03182v1
- Date: Fri, 03 Oct 2025 16:57:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.501091
- Title: Simulation to Rules: A Dual-VLM Framework for Formal Visual Planning
- Title(参考訳): ルールのシミュレーション: 形式的視覚計画のためのデュアルVLMフレームワーク
- Authors: Yilun Hao, Yongchao Chen, Chuchu Fan, Yang Zhang,
- Abstract要約: 視覚モデル(VLM)は視覚計画に強い可能性を示すが、正確な空間的および長期的推論に苦慮する。
最近の研究は、VLMが視覚的な計画問題をPDDLファイルに変換することで、これらの利点を組み合わさっている。
本稿では,PDDL問題とドメインファイルの両方を自律的に生成し,視覚的計画を行うためのデュアルVLM誘導フレームワークであるVLを提案する。
- 参考スコア(独自算出の注目度): 24.06449850882964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Language Models (VLMs) show strong potential for visual planning but struggle with precise spatial and long-horizon reasoning. In contrast, Planning Domain Definition Language (PDDL) planners excel at long-horizon formal planning, but cannot interpret visual inputs. Recent works combine these complementary advantages by enabling VLMs to turn visual planning problems into PDDL files for formal planning. However, while VLMs can generate PDDL problem files satisfactorily, they struggle to accurately generate the PDDL domain files, which describe all the planning rules. As a result, prior methods rely on human experts to predefine domain files or on constant environment access for refinement. We propose VLMFP, a Dual-VLM-guided framework that can autonomously generate both PDDL problem and domain files for formal visual planning. VLMFP introduces two VLMs to ensure reliable PDDL file generation: A SimVLM that simulates action consequences based on input rule descriptions, and a GenVLM that generates and iteratively refines PDDL files by comparing the PDDL and SimVLM execution results. VLMFP unleashes multiple levels of generalizability: The same generated PDDL domain file works for all the different instances under the same problem, and VLMs generalize to different problems with varied appearances and rules. We evaluate VLMFP with 6 grid-world domains and test its generalization to unseen instances, appearance, and game rules. On average, SimVLM accurately describes 95.5%, 82.6% of scenarios, simulates 85.5%, 87.8% of action sequence, and judges 82.4%, 85.6% goal reaching for seen and unseen appearances, respectively. With the guidance of SimVLM, VLMFP can generate PDDL files to reach 70.0%, 54.1% valid plans for unseen instances in seen and unseen appearances, respectively. Project page: https://sites.google.com/view/vlmfp.
- Abstract(参考訳): 視覚言語モデル(VLM)は視覚計画に強い可能性を示すが、正確な空間的および長期的推論に苦慮する。
対照的に、プランニングドメイン定義言語(PDDL)プランナーは、長期の正式な計画において優れているが、視覚的な入力を解釈することはできない。
最近の研究は、VLMが視覚計画問題をPDDLファイルに変換することで、これらの相補的な利点を併せ持っている。
しかしながら、VLMはPDDL問題ファイルを生成することができるが、すべてのプランニングルールを記述するPDDLドメインファイルの正確な生成に苦慮している。
その結果、事前の手法は、ドメインファイルの事前定義や改善のための環境アクセスに人間の専門家に依存している。
VLMFPは,PDDL問題とドメインファイルの両方を自律的に生成し,形式的な視覚的計画を行うための,デュアルVLM誘導フレームワークである。
VLMFPは、入力ルール記述に基づいてアクションの結果をシミュレートするSimVLMと、PDDLとSimVLMの実行結果を比較してPDDLファイルを生成して反復的に洗練するGenVLMの2つのVLMを導入している。
同一生成されたPDDLドメインファイルは同じ問題の下ですべての異なるインスタンスで動作し、VLMは様々な外観と規則で異なる問題に一般化する。
VLMFPを6つのグリッドワールドドメインで評価し、未確認のインスタンス、外観、ゲームルールへの一般化を検証した。
平均して、SimVLMは95.5%、82.6%のシナリオを正確に記述し、85.5%、87.8%のアクションシーケンスをシミュレートし、82.4%、85.6%のゴールが目に見えるように到達している。
SimVLMの指導により、VLMFPはPDDLファイルを生成して70.0%、54.1%の有効プランを表示できる。
プロジェクトページ: https://sites.google.com/view/vlmfp.com
関連論文リスト
- Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs [88.68484904214142]
Patch-as-Decodable Token (PaDT)を導入し、テキストと多様な視覚出力を生成する。
PaDTの中心は、クエリイメージのビジュアルパッチ埋め込みから派生したVisual Reference Tokens (VRT)である。
MLLMモデルと比較しても,PaDTは最先端の性能を一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-10-02T12:23:57Z) - Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies [62.653984010274485]
VLA(Vision-Language-Action)モデルは、画像や命令をロボットアクションにマッピングするために、大きな視覚言語バックボーンを適応させる。
prevailingAsは、固定された左から右への順序で自動回帰的にアクションを生成するか、バックボーンの外側で分離または拡散ヘッドをアタッチする。
本稿では離散拡散を伴う離散化作用チャンクをモデル化する統一変換器ポリシである離散拡散VLAを提案する。
論文 参考訳(メタデータ) (2025-08-27T17:39:11Z) - PSALM-V: Automating Symbolic Planning in Interactive Visual Environments with Large Language Models [22.688086293676328]
視覚環境における象徴的行動意味論(プレコンディションとポストコンディション)を誘導できる最初の自律型ニューロシンボリック学習システムPSALM-Vを提案する。
PSALM-Vは、専門家のアクション定義なしで信頼できるシンボリックプランニングを行い、LSMを使って計画と候補シンボリックセマンティクスを生成する。
論文 参考訳(メタデータ) (2025-06-25T02:44:20Z) - Integrating AI Planning Semantics into SysML System Models for Automated PDDL File Generation [37.00992105646957]
本稿では,計画ドメイン定義言語(PDDL)に基づく計画意味論のシステムモデルへの直接統合を可能にするSysMLプロファイルを提案する。
再利用可能なステレオタイプは、型、述語、関数、アクションといった主要なPDDL概念に対して定義されている。
このアプローチは、自動およびモデルベースの計画記述の生成をサポートし、エンジニアリング設計におけるシステムモデリングとAI計画の間の再利用可能なブリッジを提供する。
論文 参考訳(メタデータ) (2025-06-07T08:46:14Z) - Generating Symbolic World Models via Test-time Scaling of Large Language Models [28.258707611580643]
計画ドメイン定義言語(PDDL)は、正確な状態記述と正式な状態記述を可能にする計画抽象化として利用されます。
このアルゴリズムはまず,初期解の品質向上のためにBest-of-Nサンプリング手法を用いる。
本手法はPDDLドメインの生成において, O1-miniよりもかなり優れている。
論文 参考訳(メタデータ) (2025-02-07T07:52:25Z) - Leveraging Environment Interaction for Automated PDDL Translation and Planning with Large Language Models [7.3238629831871735]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて顕著な性能を示している。
潜在的な解決策として、計画ドメイン定義言語(PDDL)へのプランニングの問題が提案されている。
LLMと環境フィードバックを利用してPDDLドメインと問題記述ファイルを自動生成する手法を提案する。
論文 参考訳(メタデータ) (2024-07-17T19:50:51Z) - PDDLEGO: Iterative Planning in Textual Environments [56.12148805913657]
テキスト環境における計画は、現在のモデルにおいても長年にわたる課題であることが示されている。
我々は,あるサブゴールの部分的な計画に導く計画表現を反復的に構築するPDDLEGOを提案する。
数ショットのPDDLEGOで作成するプランは,Coin Collectorシミュレーションでエンドツーエンドのプランを生成するよりも43%効率がよいことを示す。
論文 参考訳(メタデータ) (2024-05-30T08:01:20Z) - NL2Plan: Robust LLM-Driven Planning from Minimal Text Descriptions [6.225699609028632]
NL2Planは、最小限の自然言語記述から完全なPDDLタスクを生成する最初の完全自動システムである。
我々は,NL2Planを7つの計画領域で評価するが,そのうち5つは新規であり,LLMトレーニングデータには含まれない。
論文 参考訳(メタデータ) (2024-05-07T11:27:13Z) - PROC2PDDL: Open-Domain Planning Representations from Texts [56.627183903841164]
Proc2PDDLは、専門家によるPDDL表現と組み合わせたオープンドメインの手続きテキストを含む最初のデータセットである。
以上の結果から, GPT-3.5は0%, GPT-4は35%, Proc2PDDLは極めて困難であることが示唆された。
論文 参考訳(メタデータ) (2024-02-29T19:40:25Z) - Automating the Generation of Prompts for LLM-based Action Choice in PDDL Planning [59.543858889996024]
大規模言語モデル(LLM)は、様々なNLPタスクに革命をもたらした。
LLMを利用してPDDL入力からNLプロンプトを自動的に生成する方法を示す。
我々のNLプロンプトはPDDLプロンプトや単純なテンプレートベースのNLプロンプトよりも優れた性能が得られる。
論文 参考訳(メタデータ) (2023-11-16T11:55:27Z) - Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。
本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:19:28Z) - Leveraging Pre-trained Large Language Models to Construct and Utilize
World Models for Model-based Task Planning [39.29964085305846]
事前訓練済みの大規模言語モデルをプランナーとして直接使用する方法は、計画の正確性に限界があるため、現在は実用的ではない。
本研究では,ドメイン定義言語(PDDL)の計画において,明示的な世界(ドメイン)モデルを構築し,ドメインに依存しないプランナで計画する新たなパラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-24T08:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。