論文の概要: Language to Rewards for Robotic Skill Synthesis
- arxiv url: http://arxiv.org/abs/2306.08647v2
- Date: Fri, 16 Jun 2023 23:02:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 00:43:16.410413
- Title: Language to Rewards for Robotic Skill Synthesis
- Title(参考訳): ロボットのスキル合成に報酬を与える言語
- Authors: Wenhao Yu, Nimrod Gileadi, Chuyuan Fu, Sean Kirmani, Kuang-Huei Lee,
Montse Gonzalez Arenas, Hao-Tien Lewis Chiang, Tom Erez, Leonard Hasenclever,
Jan Humplik, Brian Ichter, Ted Xiao, Peng Xu, Andy Zeng, Tingnan Zhang,
Nicolas Heess, Dorsa Sadigh, Jie Tan, Yuval Tassa, Fei Xia
- Abstract要約: 我々は,大規模言語モデル(LLM)を利用して,様々なロボットタスクを最適化し,達成可能な報酬パラメータを定義する新しいパラダイムを提案する。
LLMが生成する中間インタフェースとして報酬を用いることで、ハイレベルな言語命令と修正のギャップを、低レベルなロボット動作に効果的に埋めることができる。
- 参考スコア(独自算出の注目度): 37.21434094015743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated exciting progress in acquiring
diverse new capabilities through in-context learning, ranging from logical
reasoning to code-writing. Robotics researchers have also explored using LLMs
to advance the capabilities of robotic control. However, since low-level robot
actions are hardware-dependent and underrepresented in LLM training corpora,
existing efforts in applying LLMs to robotics have largely treated LLMs as
semantic planners or relied on human-engineered control primitives to interface
with the robot. On the other hand, reward functions are shown to be flexible
representations that can be optimized for control policies to achieve diverse
tasks, while their semantic richness makes them suitable to be specified by
LLMs. In this work, we introduce a new paradigm that harnesses this realization
by utilizing LLMs to define reward parameters that can be optimized and
accomplish variety of robotic tasks. Using reward as the intermediate interface
generated by LLMs, we can effectively bridge the gap between high-level
language instructions or corrections to low-level robot actions. Meanwhile,
combining this with a real-time optimizer, MuJoCo MPC, empowers an interactive
behavior creation experience where users can immediately observe the results
and provide feedback to the system. To systematically evaluate the performance
of our proposed method, we designed a total of 17 tasks for a simulated
quadruped robot and a dexterous manipulator robot. We demonstrate that our
proposed method reliably tackles 90% of the designed tasks, while a baseline
using primitive skills as the interface with Code-as-policies achieves 50% of
the tasks. We further validated our method on a real robot arm where complex
manipulation skills such as non-prehensile pushing emerge through our
interactive system.
- Abstract(参考訳): 大規模言語モデル(llm)は、論理的な推論からコード記述まで、コンテキスト内学習を通じて多様な新機能を獲得するという、エキサイティングな進歩を示している。
ロボティクスの研究者たちは、LLMを使ってロボット制御の能力を向上させる研究も行っている。
しかし、低レベルロボットの動作はハードウェアに依存しており、LLMトレーニングコーパスでは表現できないため、LLMをロボットに適用するための既存の取り組みは、LLMをセマンティックプランナーとして、あるいは人間工学のコントロールプリミティブに頼ってロボットと対話している。
一方、報酬関数は、多様なタスクを達成するために制御ポリシーに最適化できるフレキシブルな表現であり、その意味的な豊かさはLLMによって指定されるのに適している。
本研究では, LLMを利用して, 様々なロボットタスクを最適化し, 実現可能な報酬パラメータを定義することによって, この実現を実現する新しいパラダイムを提案する。
LLMが生成する中間インタフェースとして報酬を用いることで、高レベルの言語命令や修正のギャップを、低レベルのロボット動作に効果的に埋めることができる。
一方、リアルタイムオプティマイザであるmujoco mpcと組み合わせることで、ユーザがすぐに結果を観察し、システムへのフィードバックを提供できるインタラクティブな行動創造エクスペリエンスが実現される。
提案手法の性能を体系的に評価するために,擬似四足ロボットと擬似マニピュレータロボットのための合計17のタスクを設計した。
提案手法は設計したタスクの90%に確実に対応し,コード・アズ・ポリシシーのインターフェースとしてプリミティブ・スキルを用いたベースラインはタスクの50%を達成する。
さらに本手法を,非包括的プッシュなどの複雑な操作スキルが対話システムを通じて現れるロボットアーム上で検証した。
関連論文リスト
- RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - InCoRo: In-Context Learning for Robotics Control with Feedback Loops [4.702566749969133]
InCoRoは、LLMコントローラ、シーン理解ユニット、ロボットからなる古典的なロボットフィードバックループを使用するシステムである。
システムの一般化能力を強調し,InCoRoが成功率において先行技術を上回ることを示す。
この研究は、動的環境に適応する信頼性があり、効率的でインテリジェントな自律システムを構築するための道を開いた。
論文 参考訳(メタデータ) (2024-02-07T19:01:11Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Large Language Models for Robotics: A Survey [40.76581696885846]
大規模言語モデル(LLM)は自然言語の処理と生成能力を有しており、ロボットとの効率的な対話と協調を促進する。
本レビューは,ロボット制御,知覚,意思決定,経路計画といった重要な領域に対する,ロボット工学におけるLLMの応用と貢献を要約することを目的としている。
論文 参考訳(メタデータ) (2023-11-13T10:46:35Z) - RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning
via Generative Simulation [64.51563634951394]
RoboGenはジェネレーティブなロボットエージェントで、ジェネレーティブなシミュレーションを通じて、さまざまなロボットのスキルを自動的に学習する。
我々の研究は、大規模モデルに埋め込まれた広範囲で多目的な知識を抽出し、それらをロボット工学の分野に移す試みである。
論文 参考訳(メタデータ) (2023-11-02T17:59:21Z) - Vision-Language Foundation Models as Effective Robot Imitators [48.73027330407576]
我々は、オープンソースのVLMであるOpenFlamingo上に構築されたRoboFlamingoというビジョン言語操作フレームワークを考案した。
テストベンチマークでは,最先端のパフォーマンスをはるかに上回って,ロボット制御にVLMを適用する上で,RoboFlamingoが効果的かつ競争力のある代替手段であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:34:33Z) - Incremental Learning of Humanoid Robot Behavior from Natural Interaction
and Large Language Models [13.350695714201555]
本研究では,自然相互作用から複雑な行動の漸進的な学習を実現するシステムを提案する。
本システムは,ヒューマノイドロボットARMAR-6のロボット認知アーキテクチャに組み込まれている。
論文 参考訳(メタデータ) (2023-09-08T13:29:05Z) - LLM-Based Human-Robot Collaboration Framework for Manipulation Tasks [4.4589894340260585]
本稿では,Large Language Model (LLM) を用いた自律型ロボット操作の論理推論手法を提案する。
提案システムは,LLMとYOLOに基づく環境認識を組み合わせることで,ロボットが自律的に合理的な意思決定を行えるようにする。
論文 参考訳(メタデータ) (2023-08-29T01:54:49Z) - Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T23:01:27Z) - Dexterous Manipulation from Images: Autonomous Real-World RL via Substep
Guidance [71.36749876465618]
本稿では,ユーザが新しいタスクを定義するための"プログラミング不要"なアプローチを提供する,視覚に基づくデクスタラスな操作システムについて述べる。
本システムには,最終タスクと中間タスクを画像例で定義するためのフレームワークが組み込まれている。
実世界における多段階物体操作の4指ロボットハンドラーによる実験結果
論文 参考訳(メタデータ) (2022-12-19T22:50:40Z) - Active Predicting Coding: Brain-Inspired Reinforcement Learning for
Sparse Reward Robotic Control Problems [79.07468367923619]
ニューラルジェネレーティブ・コーディング(NGC)の神経認知計算フレームワークによるロボット制御へのバックプロパゲーションフリーアプローチを提案する。
我々は、スパース報酬から動的オンライン学習を容易にする強力な予測符号化/処理回路から完全に構築されたエージェントを設計する。
提案するActPCエージェントは,スパース(外部)報酬信号に対して良好に動作し,複数の強力なバックプロップベースのRLアプローチと競合し,性能が優れていることを示す。
論文 参考訳(メタデータ) (2022-09-19T16:49:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。