論文の概要: Language Models as Zero-Shot Trajectory Generators
- arxiv url: http://arxiv.org/abs/2310.11604v1
- Date: Tue, 17 Oct 2023 21:57:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 18:30:43.925578
- Title: Language Models as Zero-Shot Trajectory Generators
- Title(参考訳): ゼロショット軌道生成器としての言語モデル
- Authors: Teyun Kwon (1), Norman Di Palo (1), Edward Johns (1) ((1) Imperial
College London)
- Abstract要約: 大規模言語モデル(LLM)は、最近、低レベルのスキルの選択へのアクセスを与えられたとき、ロボットのハイレベルプランナーとして約束されている。
物体検出と分割視覚モデルのみへのアクセスを与えられた場合, LLM が操作スキルのための高密度なエンドエフェクタ・ポーズを直接予測できるかどうかを検討する。
我々はLLMが、様々な共通タスクに十分な低レベルロボット制御の理解を実際に持っていることを初めて明らかにした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have recently shown promise as high-level
planners for robots when given access to a selection of low-level skills.
However, it is often assumed that LLMs do not possess sufficient knowledge to
be used for the low-level trajectories themselves. In this work, we address
this assumption thoroughly, and investigate if an LLM (GPT-4) can directly
predict a dense sequence of end-effector poses for manipulation skills, when
given access to only object detection and segmentation vision models. We study
how well a single task-agnostic prompt, without any in-context examples, motion
primitives, or external trajectory optimisers, can perform across 26 real-world
language-based tasks, such as "open the bottle cap" and "wipe the plate with
the sponge", and we investigate which design choices in this prompt are the
most effective. Our conclusions raise the assumed limit of LLMs for robotics,
and we reveal for the first time that LLMs do indeed possess an understanding
of low-level robot control sufficient for a range of common tasks, and that
they can additionally detect failures and then re-plan trajectories
accordingly. Videos, code, and prompts are available at:
https://www.robot-learning.uk/language-models-trajectory-generators.
- Abstract(参考訳): 大規模言語モデル(llm)は、最近、低レベルのスキルの選択へのアクセスが与えられると、ロボットの高レベルなプランナーとして約束されている。
しかし、LLMは低レベルの軌道自体に使用する十分な知識を持っていないとしばしば仮定される。
本研究では、この仮定を徹底的に解決し、オブジェクト検出とセグメンテーションビジョンモデルのみへのアクセスが与えられると、LCM(GPT-4)が操作スキルの複雑なポーズを直接予測できるかどうかを検討する。
タスク非依存のプロンプトが,インコンテキストの例やモーションプリミティブ,外部軌道オプティマイザを使わずに,"ボトルキャップを開ける"や"スポンジでプレートを拭く"など,26の現実世界の言語ベースのタスクをいかにうまく実行できるかを調査し,このプロンプトにおけるどの設計選択が最も効果的かを検討する。
我々の結論は、ロボット工学におけるLLMの想定限界を提起し、LLMが様々な共通タスクに十分な低レベルロボット制御の理解を実際に持っていることを初めて明らかにし、さらに障害を検知し、それに従って軌道の再計画を行うことができる。
ビデオ、コード、プロンプトは、https://www.robot-learning.uk/ language-models-trajectory-generatorsで入手できる。
関連論文リスト
- Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Look Before You Leap: Unveiling the Power of GPT-4V in Robotic
Vision-Language Planning [32.045840007623276]
本稿では,ロボットビジョン・ランゲージ計画(ViLa)について紹介する。
ViLaは、知覚データを推論と計画プロセスに直接統合する。
実ロボットとシミュレーション環境の両方で実施した評価は,既存のLCMプランナよりもViLaの方が優れていることを示す。
論文 参考訳(メタデータ) (2023-11-29T17:46:25Z) - LgTS: Dynamic Task Sampling using LLM-generated sub-goals for
Reinforcement Learning Agents [10.936460061405157]
LgTS (LLM-Guided Teacher-Student Learning) を提案する。
提案手法では,提案したサブゴールを達成するための事前訓練されたポリシーも必要としない。
論文 参考訳(メタデータ) (2023-10-14T00:07:03Z) - Large Language Models as General Pattern Machines [64.75501424160748]
我々は,事前訓練された大規模言語モデル (LLM) が,複雑なトークンシーケンスを自動回帰的に完了することを示す。
驚いたことに、語彙からランダムにサンプリングされたトークンを用いてシーケンスが表現された場合でも、パターン完了の習熟度を部分的に保持することができる。
本研究では,ロボット工学における問題に対して,これらのゼロショット機能がどのように適用されるかを検討する。
論文 参考訳(メタデータ) (2023-07-10T17:32:13Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。
私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。
トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-02-15T18:25:52Z) - Translating Natural Language to Planning Goals with Large-Language
Models [19.738395237639136]
近年の大規模言語モデル(LLM)は,様々な自然言語処理(NLP)タスクにおいて顕著な性能を示した。
我々の中心的な問題は、LLMが自然言語で指定された目標を構造化された計画言語に翻訳できるかどうかである。
GPT 3.5 変種に対する実験結果から,LCM は計画よりも翻訳に適していることが示された。
論文 参考訳(メタデータ) (2023-02-10T09:17:52Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。