論文の概要: PSALM-V: Automating Symbolic Planning in Interactive Visual Environments with Large Language Models
- arxiv url: http://arxiv.org/abs/2506.20097v1
- Date: Wed, 25 Jun 2025 02:44:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.58654
- Title: PSALM-V: Automating Symbolic Planning in Interactive Visual Environments with Large Language Models
- Title(参考訳): PSALM-V:大規模言語モデルを用いた対話型視覚環境における記号計画の自動化
- Authors: Wang Bill Zhu, Miaosen Chai, Ishika Singh, Robin Jia, Jesse Thomason,
- Abstract要約: 視覚環境における象徴的行動意味論(プレコンディションとポストコンディション)を誘導できる最初の自律型ニューロシンボリック学習システムPSALM-Vを提案する。
PSALM-Vは、専門家のアクション定義なしで信頼できるシンボリックプランニングを行い、LSMを使って計画と候補シンボリックセマンティクスを生成する。
- 参考スコア(独自算出の注目度): 22.688086293676328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose PSALM-V, the first autonomous neuro-symbolic learning system able to induce symbolic action semantics (i.e., pre- and post-conditions) in visual environments through interaction. PSALM-V bootstraps reliable symbolic planning without expert action definitions, using LLMs to generate heuristic plans and candidate symbolic semantics. Previous work has explored using large language models to generate action semantics for Planning Domain Definition Language (PDDL)-based symbolic planners. However, these approaches have primarily focused on text-based domains or relied on unrealistic assumptions, such as access to a predefined problem file, full observability, or explicit error messages. By contrast, PSALM-V dynamically infers PDDL problem files and domain action semantics by analyzing execution outcomes and synthesizing possible error explanations. The system iteratively generates and executes plans while maintaining a tree-structured belief over possible action semantics for each action, iteratively refining these beliefs until a goal state is reached. Simulated experiments of task completion in ALFRED demonstrate that PSALM-V increases the plan success rate from 37% (Claude-3.7) to 74% in partially observed setups. Results on two 2D game environments, RTFM and Overcooked-AI, show that PSALM-V improves step efficiency and succeeds in domain induction in multi-agent settings. PSALM-V correctly induces PDDL pre- and post-conditions for real-world robot BlocksWorld tasks, despite low-level manipulation failures from the robot.
- Abstract(参考訳): 視覚環境における象徴的行動意味論(プレコンディションとポストコンディション)を対話により誘導できる最初の自律型ニューロシンボリック学習システムPSALM-Vを提案する。
PSALM-Vのブートストラップは、専門家のアクション定義なしで信頼できるシンボリックプランニングを行い、LLMを使ってヒューリスティックプランと候補シンボリックセマンティクスを生成する。
これまで、大規模言語モデルを用いて、ドメイン定義言語(PDDL)ベースのシンボリックプランナのためのアクションセマンティクスを生成してきた。
しかしながら、これらのアプローチは主にテキストベースのドメインに焦点を当てたり、事前に定義された問題ファイルへのアクセス、完全な可観測性、明示的なエラーメッセージといった非現実的な仮定に依存している。
対照的にPSALM-Vは、実行結果を分析し、可能なエラー説明を合成することにより、PDDL問題ファイルとドメインアクションセマンティクスを動的に推論する。
システムは、各アクションのアクションセマンティクスに関するツリー構造化された信念を維持しつつ、計画を反復的に生成し実行し、目標状態に到達するまでこれらの信念を反復的に洗練する。
ALFREDでのタスク完了のシミュレーション実験により、PSALM-Vは計画の成功率を37%(Claude-3.7)から74%に向上させることを示した。
RTFMとOvercooked-AIの2つの2Dゲーム環境において,PSALM-Vはステップ効率を改善し,マルチエージェント環境でのドメイン誘導に成功している。
PSALM-Vは、ロボットの低レベルの操作障害にもかかわらず、現実世界のロボットBlocksWorldタスクのPDDLプレコンディションとポストコンディションを正しく誘導する。
関連論文リスト
- Grounding Language Models with Semantic Digital Twins for Robotic Planning [6.474368392218828]
セマンティック・デジタル・ツインズ(SDT)とLarge Language Models(LLM)を統合する新しいフレームワークを提案する。
提案フレームワークは,高レベル推論とセマンティック環境理解を効果的に組み合わせ,不確実性と障害に直面した信頼性の高いタスク完了を実現する。
論文 参考訳(メタデータ) (2025-06-19T17:38:00Z) - Language-Vision Planner and Executor for Text-to-Visual Reasoning [9.140712714337273]
本稿では,容易に理解可能なスクリプトで段階的に視覚的推論計画を作成し,各ステップをリアルタイムで実行することができるAIシステムを提案する。
本稿では,視覚的推論のための大規模言語モデル (LLM) の開発に触発されて,容易に理解可能なスクリプトで段階的に視覚的推論計画を作成し,計画の各ステップをリアルタイムで実行可能なAIシステム VLAgent を提案する。
論文 参考訳(メタデータ) (2025-06-09T13:55:55Z) - Latent Diffusion Planning for Imitation Learning [78.56207566743154]
Latent Diffusion Planning (LDP) は、プランナーと逆ダイナミクスモデルからなるモジュラーアプローチである。
行動予測からプランニングを分離することにより、LDPは最適なデータと行動自由データのより密集した監視信号の恩恵を受けることができる。
シミュレーションされた視覚ロボット操作タスクにおいて、LDPは最先端の模倣学習アプローチより優れている。
論文 参考訳(メタデータ) (2025-04-23T17:53:34Z) - Language Models can Infer Action Semantics for Symbolic Planners from Environment Feedback [26.03718733867297]
言語モデルを用いた行動予測法(PSALM)を提案する。
PSALMはシンボルプランナーとLarge Language Models(LLM)の強みを活用することでアクションセマンティクスを学習する
実験の結果、PSALMは計画の成功率を36.4%(Claude-3.5)から100%に向上させ、基礎となる真理ドメインのアクションセマンティクスを推論する以前の作業よりも効率的に環境を探索する。
論文 参考訳(メタデータ) (2024-06-04T21:29:56Z) - Grounding Language Plans in Demonstrations Through Counterfactual Perturbations [25.19071357445557]
物理領域におけるLarge Language Models(LLM)の常識的推論は、具体化されたAIにとって重要な問題でありながら未解決である。
提案手法は,2次元ナビゲーションによる模倣学習の解釈性と反応性を向上し,シミュレーションおよび実ロボット操作タスクを実現する。
論文 参考訳(メタデータ) (2024-03-25T19:04:59Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - PROC2PDDL: Open-Domain Planning Representations from Texts [56.627183903841164]
Proc2PDDLは、専門家によるPDDL表現と組み合わせたオープンドメインの手続きテキストを含む最初のデータセットである。
以上の結果から, GPT-3.5は0%, GPT-4は35%, Proc2PDDLは極めて困難であることが示唆された。
論文 参考訳(メタデータ) (2024-02-29T19:40:25Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - A Picture is Worth a Thousand Words: Language Models Plan from Pixels [53.85753597586226]
計画は, 実環境下で長時間の作業を行う人工エージェントの重要な機能である。
本研究では,事前学習型言語モデル(PLM)を用いて,具体的視覚環境におけるテキスト命令からのプランシーケンスを推論する。
論文 参考訳(メタデータ) (2023-03-16T02:02:18Z) - Long-Horizon Planning and Execution with Functional Object-Oriented
Networks [79.94575713911189]
タスク計画と実行のためのFOONとしてオブジェクトレベルの知識を活用するというアイデアを紹介します。
提案手法では,FOONをPDDLに自動変換し,市販のプランナ,アクションコンテキスト,ロボットスキルを活用する。
我々はCoppeliaSimの長期タスクに対するアプローチを実証し、学習されたアクションコンテキストを、これまで見たことのないシナリオにどのように拡張できるかを示す。
論文 参考訳(メタデータ) (2022-07-12T19:29:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。