論文の概要: Language Models as Zero-Shot Trajectory Generators
- arxiv url: http://arxiv.org/abs/2310.11604v2
- Date: Mon, 17 Jun 2024 23:57:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 05:04:09.886446
- Title: Language Models as Zero-Shot Trajectory Generators
- Title(参考訳): ゼロショット軌道生成器としての言語モデル
- Authors: Teyun Kwon, Norman Di Palo, Edward Johns,
- Abstract要約: 大規模言語モデル(LLM)は最近、ロボットのハイレベルプランナーとして約束されている。
LLMは低レベルの軌道自体に使用する十分な知識を持っていないとしばしば仮定される。
本研究は,LLMが操作タスクに対して,エンドエフェクタの高密度なシーケンスを直接予測できるかどうかを考察する。
- 参考スコア(独自算出の注目度): 10.572264780575564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have recently shown promise as high-level planners for robots when given access to a selection of low-level skills. However, it is often assumed that LLMs do not possess sufficient knowledge to be used for the low-level trajectories themselves. In this work, we address this assumption thoroughly, and investigate if an LLM (GPT-4) can directly predict a dense sequence of end-effector poses for manipulation tasks, when given access to only object detection and segmentation vision models. We designed a single, task-agnostic prompt, without any in-context examples, motion primitives, or external trajectory optimisers. Then we studied how well it can perform across 30 real-world language-based tasks, such as "open the bottle cap" and "wipe the plate with the sponge", and we investigated which design choices in this prompt are the most important. Our conclusions raise the assumed limit of LLMs for robotics, and we reveal for the first time that LLMs do indeed possess an understanding of low-level robot control sufficient for a range of common tasks, and that they can additionally detect failures and then re-plan trajectories accordingly. Videos, prompts, and code are available at: https://www.robot-learning.uk/language-models-trajectory-generators.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近、低レベルのスキルの選択へのアクセスを与えられたとき、ロボットのハイレベルプランナーとして約束されている。
しかし、LLMは低レベルの軌道自体に使用する十分な知識を持っていないとしばしば仮定される。
本研究では,LLM(GPT-4)がオブジェクト検出とセグメンテーションビジョンモデルのみへのアクセスを与えられた場合,操作タスクに対して,エンドエフェクタの高密度なシーケンスを直接予測できるかどうかを詳細に検討する。
我々は、コンテキスト内例、モーションプリミティブ、または外部軌跡オプティマイザを使わずに、単一のタスクに依存しないプロンプトを設計した。
そこで,本研究では,「ボトルキャップを開いて」や「スポンジで皿を拭く」といった実世界の30の言語ベースタスクに対して,どのような設計選択が重要かを検討した。
我々の結論は、ロボット工学におけるLLMの想定限界を提起し、LLMが様々な共通タスクに十分な低レベルロボット制御の理解を実際に持っていることを初めて明らかにし、さらに障害を検知し、それに従って軌道の再計画を行うことができる。
ビデオ、プロンプト、コードは、https://www.robot-learning.uk/ language-models-trajectory-generatorsで入手できる。
関連論文リスト
- MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation [52.739500459903724]
大規模言語モデル(LLM)は、ロボティクスの操作やナビゲーションなど、さまざまな領域にまたがる優れた計画能力を示している。
特殊なLLMエージェント間で高レベル計画および低レベル制御コード生成を分散する新しいマルチエージェントLLMフレームワークを提案する。
長軸タスクを含む9つのRLBenchタスクに対するアプローチを評価し、ゼロショット環境でロボット操作を解く能力を実証した。
論文 参考訳(メタデータ) (2024-11-26T17:53:44Z) - In-Context Learning Enables Robot Action Prediction in LLMs [52.285739178561705]
本稿では,ロボットの動作を直接予測する,オフザシェルフテキストのみの大規模言語モデルを実現するフレームワークであるRoboPromptを紹介する。
われわれのアプローチはまず、エピソードから重要な瞬間を捉えている。
我々は、初期オブジェクトのポーズだけでなく、エンドエフェクタアクションも抽出し、どちらもテキスト記述に変換する。
これにより、LLMはテスト時にロボットの動作を直接予測できる。
論文 参考訳(メタデータ) (2024-10-16T17:56:49Z) - Towards Open-World Grasping with Large Vision-Language Models [5.317624228510749]
オープンワールドの把握システムは、高レベルの文脈と低レベルの物理幾何学的推論を組み合わせることができるべきである。
本稿では,視覚言語モデルとセグメンテーションとグルーピング合成モデルを組み合わせたオープンワールドグルーピングパイプラインOWGを提案する。
乱雑な屋内シーンデータセットを用いて,オープンエンド言語を基盤としたOWGのロバスト性を示す。
論文 参考訳(メタデータ) (2024-06-26T19:42:08Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。
PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文 参考訳(メタデータ) (2024-05-02T17:59:31Z) - Empowering Large Language Models on Robotic Manipulation with Affordance Prompting [23.318449345424725]
大規模な言語モデルは、制御シーケンスを適切に生成することで物理世界と相互作用することができない。
既存のLLMベースのアプローチでは、事前定義されたスキルや事前訓練されたサブ政治に頼ることでこの問題を回避することができる。
サブタスクプランナとモーションコントローラの両方をLLM+A(ffordance)と呼ぶフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-17T03:06:32Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Translating Natural Language to Planning Goals with Large-Language
Models [19.738395237639136]
近年の大規模言語モデル(LLM)は,様々な自然言語処理(NLP)タスクにおいて顕著な性能を示した。
我々の中心的な問題は、LLMが自然言語で指定された目標を構造化された計画言語に翻訳できるかどうかである。
GPT 3.5 変種に対する実験結果から,LCM は計画よりも翻訳に適していることが示された。
論文 参考訳(メタデータ) (2023-02-10T09:17:52Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。