Fugu-MT 論文翻訳(概要): Trust the PRoC3S: Solving Long-Horizon Robotics Problems with LLMs and Constraint Satisfaction

論文の概要: Trust the PRoC3S: Solving Long-Horizon Robotics Problems with LLMs and Constraint Satisfaction

arxiv url: http://arxiv.org/abs/2406.05572v2
Date: Fri, 6 Sep 2024 02:13:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-09 20:13:58.217377
Title: Trust the PRoC3S: Solving Long-Horizon Robotics Problems with LLMs and Constraint Satisfaction
Title（参考訳）: PRoC3Sの信頼:LLMと制約満足度による長距離ロボット問題の解決
Authors: Aidan Curtis, Nishanth Kumar, Jing Cao, Tomás Lozano-Pérez, Leslie Pack Kaelbling,
Abstract要約: ロボット工学を応用した事前学習型大規模言語モデル(LLM)の最近の進歩は、単純なロボットタスクにおいてオープンな目標を達成するために、個々のスキルのセットをシークエンシングする能力を示している。本稿では,機械的,幾何学的,物理的制約の集合の違反を避けることが必要な,連続パラメータ化スキルの集合に対するLLM計画の課題について検討する。 3つの異なる3次元領域にわたる実験により、提案手法であるPRoC3Sは、既存のベースラインよりもはるかに効率的かつ効果的に、連続パラメータに現実的な制約を課した幅広い複雑な操作タスクを解くことができることを示した。
参考スコア（独自算出の注目度）: 38.683780057806516
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent developments in pretrained large language models (LLMs) applied to robotics have demonstrated their capacity for sequencing a set of discrete skills to achieve open-ended goals in simple robotic tasks. In this paper, we examine the topic of LLM planning for a set of continuously parameterized skills whose execution must avoid violations of a set of kinematic, geometric, and physical constraints. We prompt the LLM to output code for a function with open parameters, which, together with environmental constraints, can be viewed as a Continuous Constraint Satisfaction Problem (CCSP). This CCSP can be solved through sampling or optimization to find a skill sequence and continuous parameter settings that achieve the goal while avoiding constraint violations. Additionally, we consider cases where the LLM proposes unsatisfiable CCSPs, such as those that are kinematically infeasible, dynamically unstable, or lead to collisions, and re-prompt the LLM to form a new CCSP accordingly. Experiments across three different simulated 3D domains demonstrate that our proposed strategy, PRoC3S, is capable of solving a wide range of complex manipulation tasks with realistic constraints on continuous parameters much more efficiently and effectively than existing baselines.
Abstract（参考訳）: ロボット工学に適用された事前訓練された大規模言語モデル(LLM)の最近の進歩は、単純なロボットタスクにおいてオープンな目標を達成するために、一連の個別スキルをシークエンシングする能力を示している。本稿では,機械的,幾何学的,物理的制約の集合の違反を避けることが必要な,連続パラメータ化スキルの集合に対するLLM計画の課題について検討する。我々はLLMに対して,環境制約とともに連続制約満足度問題(CCSP)と見なせるような,オープンパラメータを持つ関数のコードを出力するよう促す。このCCSPはサンプリングや最適化によって解決でき、制約違反を回避しつつ目標を達成するためのスキルシーケンスと連続パラメータ設定を見つけることができる。さらに, LLM が不満足な CCSP を提案する場合, 例えば, 動力学的に実現不可能で, 動的に不安定で, あるいは衝突を引き起こす場合について考察し, 新たな CCSP を形成するために LLM を再起動する。 3つの異なる3次元領域にわたる実験により、提案手法であるPRoC3Sは、既存のベースラインよりもはるかに効率的かつ効果的に、連続パラメータに現実的な制約を課した幅広い複雑な操作タスクを解くことができることを示した。

関連論文リスト

ReflecSched: Solving Dynamic Flexible Job-Shop Scheduling via LLM-Powered Hierarchical Reflection [4.101501114944147]
ReflecSchedは、直接スケジューラ以上の LLM を強化するフレームワークである。複数の計画地平線にまたがるシミュレーションを、簡潔で自然言語の要約に蒸留する。この要約は、最終的な意思決定モジュールのプロンプトに統合され、非ミオピックアクションを生成するためのガイドとなる。
論文参考訳（メタデータ） (2025-08-03T11:26:35Z)
Evaluating the Efficacy of LLM-Based Reasoning for Multiobjective HPC Job Scheduling [6.623504719591386]
大規模言語モデル(LLM)ベースのスケジューラはReActスタイルのフレームワークを使用する(Reason + Act) Systemはスクラッチパッドメモリを内蔵し、スケジューリング履歴を追跡し、自然言語のフィードバックを通じて決定を洗練する。我々は,OpenAI の O4-Mini と Anthropic の Claude 3.7 を用いて,実世界の7つの HPC ワークロードシナリオに対してアプローチを評価した。
論文参考訳（メタデータ） (2025-05-29T14:25:29Z)
Collision- and Reachability-Aware Multi-Robot Control with Grounded LLM Planners [38.407073503042966]
大型言語モデル (LLM) は様々なロボット制御タスクにおいて高い性能を示した。しかし、現実世界のアプリケーションへの展開は依然として制約がある。我々は、強化学習と検証可能な報酬を統合する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-26T23:14:16Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
Step-by-Step Mastery: Enhancing Soft Constraint Following Ability of Large Language Models [39.114513139453756]
大規模言語モデル(LLM)には、複数の制約を含む命令に従うことが不可欠である。高品質な出力を持つデータセットを自動構築するパイプラインを設計する。データ構築プロセス中に発生する正と負のサンプルを十分に活用するために、トレーニング手法として直接選好最適化(DPO)を選択する。我々は,LLMのソフト制約追従能力を向上させるための手法の有効性を実験的に評価した。
論文参考訳（メタデータ） (2025-01-09T03:34:07Z)
Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection [56.66677293607114]
オープンセットのリアクティブかつアクティブな障害検出のためのCode-as-Monitor(CaM)を提案する。モニタリングの精度と効率を高めるために,制約関連エンティティを抽象化する制約要素を導入する。実験により、CaMは28.7%高い成功率を達成し、厳しい乱れの下で実行時間を31.8%短縮することが示された。
論文参考訳（メタデータ） (2024-12-05T18:58:27Z)
MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation [52.739500459903724]
大規模言語モデル(LLM)は、ロボティクスの操作やナビゲーションなど、さまざまな領域にまたがる優れた計画能力を示している。特殊なLLMエージェント間で高レベル計画および低レベル制御コード生成を分散する新しいマルチエージェントLLMフレームワークを提案する。長軸タスクを含む9つのRLBenchタスクに対するアプローチを評価し、ゼロショット環境でロボット操作を解く能力を実証した。
論文参考訳（メタデータ） (2024-11-26T17:53:44Z)
Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文参考訳（メタデータ） (2024-11-21T04:23:17Z)
DeepLTL: Learning to Efficiently Satisfy Complex LTL Specifications [59.01527054553122]
リニア時間論理(LTL)は、強化学習(RL)における複雑で時間的に拡張されたタスクを特定する強力なフォーマリズムとして最近採用されている。既存のアプローチはいくつかの欠点に悩まされており、それらは有限水平フラグメントにのみ適用でき、最適以下の解に制限され、安全制約を適切に扱えない。本研究では,これらの問題に対処するための新しい学習手法を提案する。提案手法は, 自動仕様のセマンティクスを明示的に表現したB"uchiaの構造を利用して, 所望の式を満たすための真理代入の順序を条件としたポリシーを学習する。
論文参考訳（メタデータ） (2024-10-06T21:30:38Z)
Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文参考訳（メタデータ） (2024-08-18T14:25:44Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
LTL-Constrained Policy Optimization with Cycle Experience Replay [19.43224037705577]
線形論理(LTL)は、強化学習エージェントの動作を制限するための正確な手段を提供する。本稿では、この問題に対する報酬形成アプローチであるCyclER(CyclER)について紹介する。
論文参考訳（メタデータ） (2024-04-17T17:24:44Z)
Empowering Large Language Models on Robotic Manipulation with Affordance Prompting [23.318449345424725]
大規模な言語モデルは、制御シーケンスを適切に生成することで物理世界と相互作用することができない。既存のLLMベースのアプローチでは、事前定義されたスキルや事前訓練されたサブ政治に頼ることでこの問題を回避することができる。サブタスクプランナとモーションコントローラの両方をLLM+A(ffordance)と呼ぶフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-17T03:06:32Z)
Policy Optimization with Linear Temporal Logic Constraints [37.27882290236194]
本稿では,線形時間論理制約を用いた政策最適化の問題点について考察する。我々は,タスク満足度とコスト最適性の両方を保証するために,サンプル複雑性分析を楽しむモデルベースアプローチを開発した。
論文参考訳（メタデータ） (2022-06-20T02:58:02Z)
Reinforcement Learning Based Temporal Logic Control with Soft Constraints Using Limit-deterministic Generalized Buchi Automata [0.0]
不確実性を考慮した運動計画の制御合成について検討する。ロボットの動作や環境特性に不確実性が考慮され、確率的マルコフ決定プロセス(MDP)が生まれます。
論文参考訳（メタデータ） (2021-01-25T18:09:11Z)
Goal Kernel Planning: Linearly-Solvable Non-Markovian Policies for Logical Tasks with Goal-Conditioned Options [54.40780660868349]
我々はLinearly-Solvable Goal Kernel Dynamic Programming (LS-GKDP)と呼ばれる合成フレームワークを導入する。 LS-GKDPは、Linearly-Solvable Markov Decision Process (LMDP)形式とOptions Framework of Reinforcement Learningを組み合わせたものである。本稿では,目標カーネルを持つLMDPが,タスク接地によって定義された低次元部分空間におけるメタポリティシの効率的な最適化を実現する方法を示す。
論文参考訳（メタデータ） (2020-07-06T05:13:20Z)
Teaching the Old Dog New Tricks: Supervised Learning with Constraints [18.88930622054883]
機械学習に制約サポートを追加することは、データ駆動型AIシステムにおいて際立った問題に対処する可能性がある。既存のアプローチでは、MLトレーニングに制約付き最適化手法を適用し、モデル設計を調整することによって制約満足度を強制するか、あるいは出力を修正するために制約を使用するのが一般的である。そこで本研究では,教師付きML手法に対する制約満足度を,最先端制約解決器の直接利用により,それぞれ異なる,補完的な制約満足度に基づく戦略について検討する。
論文参考訳（メタデータ） (2020-02-25T09:47:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。