論文の概要: Autonomous Improvement of Instruction Following Skills via Foundation Models
- arxiv url: http://arxiv.org/abs/2407.20635v1
- Date: Tue, 30 Jul 2024 08:26:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 17:59:37.437716
- Title: Autonomous Improvement of Instruction Following Skills via Foundation Models
- Title(参考訳): 基礎モデルによる技能教育の自律的改善
- Authors: Zhiyuan Zhou, Pranav Atreya, Abraham Lee, Homer Walke, Oier Mees, Sergey Levine,
- Abstract要約: 自律的に収集された経験から改善できる知能的な指示追従ロボットは、ロボット学習を変革する可能性がある。
人的監督なしに自律的に収集したデータから、指示追従ポリシーを改善できる新しいアプローチを提案する。
実世界において、我々のアプローチの有効性を実証するために広範な実験を行い、目に見えない環境のスイートにおいて、自律的に収集されたデータによってロボットのポリシーを大幅に改善できることを見出した。
- 参考スコア(独自算出の注目度): 44.63552778566584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intelligent instruction-following robots capable of improving from autonomously collected experience have the potential to transform robot learning: instead of collecting costly teleoperated demonstration data, large-scale deployment of fleets of robots can quickly collect larger quantities of autonomous data that can collectively improve their performance. However, autonomous improvement requires solving two key problems: (i) fully automating a scalable data collection procedure that can collect diverse and semantically meaningful robot data and (ii) learning from non-optimal, autonomous data with no human annotations. To this end, we propose a novel approach that addresses these challenges, allowing instruction-following policies to improve from autonomously collected data without human supervision. Our framework leverages vision-language models to collect and evaluate semantically meaningful experiences in new environments, and then utilizes a decomposition of instruction following tasks into (semantic) language-conditioned image generation and (non-semantic) goal reaching, which makes it significantly more practical to improve from this autonomously collected data without any human annotations. We carry out extensive experiments in the real world to demonstrate the effectiveness of our approach, and find that in a suite of unseen environments, the robot policy can be improved significantly with autonomously collected data. We open-source the code for our semantic autonomous improvement pipeline, as well as our autonomous dataset of 30.5K trajectories collected across five tabletop environments.
- Abstract(参考訳): 自律的に収集された経験から改善できるインテリジェントな命令追従ロボットは、ロボット学習を変革する可能性がある。高価な遠隔操作型デモデータを集める代わりに、大規模なロボット群を配置することで、大規模な自律的データを迅速に収集し、そのパフォーマンスを総合的に改善することができる。
しかし、自律的な改善には2つの重要な問題を解決する必要がある。
一 多様な意味論的に意味のあるロボットデータを収集できるスケーラブルなデータ収集手順を完全自動化すること。
(ii)人間のアノテーションのない最適でない自律的なデータから学ぶこと。
そこで本研究では,これらの課題に対処する新たなアプローチを提案する。
我々のフレームワークは視覚言語モデルを活用して,新しい環境における意味的な経験を収集・評価し,次に,タスクに続く命令を(意味のない)言語条件の画像生成と(意味のない)ゴール到達に分解することで,人間のアノテーションを使わずに,この自律的に収集したデータから改善することが極めて現実的である。
実世界において、我々のアプローチの有効性を実証するために広範な実験を行い、目に見えない環境のスイートにおいて、自律的に収集されたデータによってロボットのポリシーを大幅に改善できることを見出した。
セマンティックな自律的改善パイプラインのコードと、5つのテーブルトップ環境で収集された30.5Kトラジェクトリの自律的データセットをオープンソースにしています。
関連論文リスト
- So You Think You Can Scale Up Autonomous Robot Data Collection? [22.7035324720716]
強化学習(RL)には、自律的なデータ収集を可能にするという約束がある。
環境設計と計測に要する多大な労力のために、現実世界でのスケーリングは依然として困難である。
イミテーション・ラーニング (IL) の手法は環境設計の努力をほとんど必要とせず、人的監督を必要とする。
論文 参考訳(メタデータ) (2024-11-04T05:31:35Z) - Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments [26.66666135624716]
ゼロショットロボットポリシーのトレーニングとデプロイのためのフレームワークであるロボットユーティリティモデル(RUM)を提案する。
RUMは微調整なしで新しい環境に一般化できる。
キャビネットドアのオープン、引き出しのオープン、ナプキンのピックアップ、紙袋のピックアップ、転倒物の再配向の5つのユーティリティモデルを訓練する。
論文 参考訳(メタデータ) (2024-09-09T17:59:50Z) - AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents [109.3804962220498]
AutoRTは、人間の監督を最小限に抑えて、完全に見えないシナリオで運用ロボットの展開をスケールアップするシステムである。
われわれはAutoRTが複数の建物にまたがる20以上のロボットに指示を提示し、遠隔操作と自律ロボットポリシーを通じて77万個の実ロボットエピソードを収集するデモを行った。
実験により,AutoRTが収集した「未使用データ」は極めて多種多様であり,AutoRTのLLMを使用することで,人間の好みに合わせることができるデータ収集ロボットの指示が可能であることを実証した。
論文 参考訳(メタデータ) (2024-01-23T18:45:54Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文 参考訳(メタデータ) (2020-02-25T18:56:42Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。