論文の概要: Language Models as Zero-Shot Trajectory Generators
- arxiv url: http://arxiv.org/abs/2310.11604v1
- Date: Tue, 17 Oct 2023 21:57:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 18:30:43.925578
- Title: Language Models as Zero-Shot Trajectory Generators
- Title(参考訳): ゼロショット軌道生成器としての言語モデル
- Authors: Teyun Kwon (1), Norman Di Palo (1), Edward Johns (1) ((1) Imperial
College London)
- Abstract要約: 大規模言語モデル(LLM)は、最近、低レベルのスキルの選択へのアクセスを与えられたとき、ロボットのハイレベルプランナーとして約束されている。
物体検出と分割視覚モデルのみへのアクセスを与えられた場合, LLM が操作スキルのための高密度なエンドエフェクタ・ポーズを直接予測できるかどうかを検討する。
我々はLLMが、様々な共通タスクに十分な低レベルロボット制御の理解を実際に持っていることを初めて明らかにした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have recently shown promise as high-level
planners for robots when given access to a selection of low-level skills.
However, it is often assumed that LLMs do not possess sufficient knowledge to
be used for the low-level trajectories themselves. In this work, we address
this assumption thoroughly, and investigate if an LLM (GPT-4) can directly
predict a dense sequence of end-effector poses for manipulation skills, when
given access to only object detection and segmentation vision models. We study
how well a single task-agnostic prompt, without any in-context examples, motion
primitives, or external trajectory optimisers, can perform across 26 real-world
language-based tasks, such as "open the bottle cap" and "wipe the plate with
the sponge", and we investigate which design choices in this prompt are the
most effective. Our conclusions raise the assumed limit of LLMs for robotics,
and we reveal for the first time that LLMs do indeed possess an understanding
of low-level robot control sufficient for a range of common tasks, and that
they can additionally detect failures and then re-plan trajectories
accordingly. Videos, code, and prompts are available at:
https://www.robot-learning.uk/language-models-trajectory-generators.
- Abstract(参考訳): 大規模言語モデル(llm)は、最近、低レベルのスキルの選択へのアクセスが与えられると、ロボットの高レベルなプランナーとして約束されている。
しかし、LLMは低レベルの軌道自体に使用する十分な知識を持っていないとしばしば仮定される。
本研究では、この仮定を徹底的に解決し、オブジェクト検出とセグメンテーションビジョンモデルのみへのアクセスが与えられると、LCM(GPT-4)が操作スキルの複雑なポーズを直接予測できるかどうかを検討する。
タスク非依存のプロンプトが,インコンテキストの例やモーションプリミティブ,外部軌道オプティマイザを使わずに,"ボトルキャップを開ける"や"スポンジでプレートを拭く"など,26の現実世界の言語ベースのタスクをいかにうまく実行できるかを調査し,このプロンプトにおけるどの設計選択が最も効果的かを検討する。
我々の結論は、ロボット工学におけるLLMの想定限界を提起し、LLMが様々な共通タスクに十分な低レベルロボット制御の理解を実際に持っていることを初めて明らかにし、さらに障害を検知し、それに従って軌道の再計画を行うことができる。
ビデオ、コード、プロンプトは、https://www.robot-learning.uk/ language-models-trajectory-generatorsで入手できる。
関連論文リスト
- In-Context Learning Enables Robot Action Prediction in LLMs [52.285739178561705]
本稿では,ロボットの動作を直接予測する,オフザシェルフテキストのみの大規模言語モデルを実現するフレームワークであるRoboPromptを紹介する。
われわれのアプローチはまず、エピソードから重要な瞬間を捉えている。
我々は、初期オブジェクトのポーズだけでなく、エンドエフェクタアクションも抽出し、どちらもテキスト記述に変換する。
これにより、LLMはテスト時にロボットの動作を直接予測できる。
論文 参考訳(メタデータ) (2024-10-16T17:56:49Z) - Towards Open-World Grasping with Large Vision-Language Models [5.317624228510749]
オープンワールドの把握システムは、高レベルの文脈と低レベルの物理幾何学的推論を組み合わせることができるべきである。
本稿では,視覚言語モデルとセグメンテーションとグルーピング合成モデルを組み合わせたオープンワールドグルーピングパイプラインOWGを提案する。
乱雑な屋内シーンデータセットを用いて,オープンエンド言語を基盤としたOWGのロバスト性を示す。
論文 参考訳(メタデータ) (2024-06-26T19:42:08Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。
PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文 参考訳(メタデータ) (2024-05-02T17:59:31Z) - Empowering Large Language Models on Robotic Manipulation with Affordance Prompting [23.318449345424725]
大規模な言語モデルは、制御シーケンスを適切に生成することで物理世界と相互作用することができない。
既存のLLMベースのアプローチでは、事前定義されたスキルや事前訓練されたサブ政治に頼ることでこの問題を回避することができる。
サブタスクプランナとモーションコントローラの両方をLLM+A(ffordance)と呼ぶフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-17T03:06:32Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。
私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。
トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-02-15T18:25:52Z) - Translating Natural Language to Planning Goals with Large-Language
Models [19.738395237639136]
近年の大規模言語モデル(LLM)は,様々な自然言語処理(NLP)タスクにおいて顕著な性能を示した。
我々の中心的な問題は、LLMが自然言語で指定された目標を構造化された計画言語に翻訳できるかどうかである。
GPT 3.5 変種に対する実験結果から,LCM は計画よりも翻訳に適していることが示された。
論文 参考訳(メタデータ) (2023-02-10T09:17:52Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。