論文の概要: Code-as-Symbolic-Planner: Foundation Model-Based Robot Planning via Symbolic Code Generation
- arxiv url: http://arxiv.org/abs/2503.01700v1
- Date: Mon, 03 Mar 2025 16:13:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:23:17.384588
- Title: Code-as-Symbolic-Planner: Foundation Model-Based Robot Planning via Symbolic Code Generation
- Title(参考訳): Code-as-Symbolic-Planner:シンボリックコード生成による基礎モデルに基づくロボット計画
- Authors: Yongchao Chen, Yilun Hao, Yang Zhang, Chuchu Fan,
- Abstract要約: 大きな言語モデル(LLM)は、サブゴールとアクションプランでテキストベースの推論チェーンを生成することができる。
LLMは最適化と制約検証のためのシンボリックプランナーとしてコードを生成することもできる。
Code-as-Symbolic-Plannerは、離散的および連続的な環境、2D/3Dシミュレーション、現実世界の設定において、強い効果と一般化性を示す。
- 参考スコア(独自算出の注目度): 12.875270710153021
- License:
- Abstract: Recent works have shown great potentials of Large Language Models (LLMs) in robot task and motion planning (TAMP). Current LLM approaches generate text- or code-based reasoning chains with sub-goals and action plans. However, they do not fully leverage LLMs' symbolic computing and code generation capabilities. Many robot TAMP tasks involve complex optimization under multiple constraints, where pure textual reasoning is insufficient. While augmenting LLMs with predefined solvers and planners improves performance, it lacks generalization across tasks. Given LLMs' growing coding proficiency, we enhance their TAMP capabilities by steering them to generate code as symbolic planners for optimization and constraint verification. Unlike prior work that uses code to interface with robot action modules, we steer LLMs to generate code as solvers, planners, and checkers for TAMP tasks requiring symbolic computing, while still leveraging textual reasoning to incorporate common sense. With a multi-round guidance and answer evolution framework, the proposed Code-as-Symbolic-Planner improves success rates by average 24.1\% over best baseline methods across seven typical TAMP tasks and three popular LLMs. Code-as-Symbolic-Planner shows strong effectiveness and generalizability across discrete and continuous environments, 2D/3D simulations and real-world settings, as well as single- and multi-robot tasks with diverse requirements. See our project website https://yongchao98.github.io/Code-Symbol-Planner/ for prompts, videos, and code.
- Abstract(参考訳): 最近の研究は、ロボットタスクと運動計画(TAMP)において、LLM(Large Language Models)の大きな可能性を示している。
現在のLLMアプローチは、サブゴールとアクションプランを備えたテキストまたはコードベースの推論チェーンを生成する。
しかし、LLMのシンボリックコンピューティングとコード生成機能を完全に活用していない。
多くのロボットTAMPタスクは、純粋なテキスト推論が不十分な複数の制約の下で複雑な最適化を含む。
LLMを事前定義された解決器とプランナーで拡張すると性能が向上するが、タスク間の一般化は欠如している。
LLMのコーディング能力の増大を踏まえ、最適化と制約検証のためのシンボリックプランナーとしてコードを生成するため、それらのTAMP能力を向上する。
ロボットのアクションモジュールとコードを使って対話する以前の作業とは異なり、私たちはLLMを操り、シンボリック・コンピューティングを必要とするTAMPタスクのソルバ、プランナー、チェッカーとしてコードを生成する。
マルチラウンドのガイダンスと回答の進化フレームワークにより、提案されたCode-as-Symbolic-Plannerは、典型的な7つのTAMPタスクと3つのLLMにわたる最高のベースラインメソッドよりも平均24.1\%の成功率を改善する。
Code-as-Symbolic-Plannerは、離散的および連続的な環境、2D/3Dシミュレーション、実世界の設定、そして多様な要件を持つシングルロボットとマルチロボットタスクに対して、強い効果と一般化性を示す。
プロジェクトのWebサイト https://yongchao98.github.io/Code-Symbol-Planner/を参照してください。
関連論文リスト
- Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。
近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。
完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文 参考訳(メタデータ) (2024-11-21T04:23:17Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - Empowering Large Language Models on Robotic Manipulation with Affordance Prompting [23.318449345424725]
大規模な言語モデルは、制御シーケンスを適切に生成することで物理世界と相互作用することができない。
既存のLLMベースのアプローチでは、事前定義されたスキルや事前訓練されたサブ政治に頼ることでこの問題を回避することができる。
サブタスクプランナとモーションコントローラの両方をLLM+A(ffordance)と呼ぶフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-17T03:06:32Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - GenSim: Generating Robotic Simulation Tasks via Large Language Models [34.79613485106202]
GenSimは、リッチなシミュレーション環境とエキスパートのデモを自動的に生成することを目指している。
既存のベンチマークを10倍から100以上のタスクに拡張するために、GPT4を使用します。
最小限のsim-to-real適応により、GPT4生成したシミュレーションタスクで事前訓練されたマルチタスクポリシーは、現実世界で目に見えないロングホライゾンタスクへのより強力な転送を示す。
論文 参考訳(メタデータ) (2023-10-02T17:23:48Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z) - Low-code LLM: Graphical User Interface over Large Language Models [115.08718239772107]
本稿では,人間-LLMインタラクションフレームワークであるLow-code LLMを紹介する。
より制御可能で安定した応答を実現するために、6種類のシンプルなローコードビジュアルプログラミングインタラクションを組み込んでいる。
ユーザフレンドリなインタラクション,制御可能な生成,広い適用性という,低コード LLM の3つの利点を強調した。
論文 参考訳(メタデータ) (2023-04-17T09:27:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。