論文の概要: So You Think You Can Scale Up Autonomous Robot Data Collection?
- arxiv url: http://arxiv.org/abs/2411.01813v1
- Date: Mon, 04 Nov 2024 05:31:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:46:38.014199
- Title: So You Think You Can Scale Up Autonomous Robot Data Collection?
- Title(参考訳): 自律型ロボットのデータ収集は可能か?
- Authors: Suvir Mirchandani, Suneel Belkhale, Joey Hejna, Evelyn Choi, Md Sazzad Islam, Dorsa Sadigh,
- Abstract要約: 強化学習(RL)には、自律的なデータ収集を可能にするという約束がある。
環境設計と計測に要する多大な労力のために、現実世界でのスケーリングは依然として困難である。
イミテーション・ラーニング (IL) の手法は環境設計の努力をほとんど必要とせず、人的監督を必要とする。
- 参考スコア(独自算出の注目度): 22.7035324720716
- License:
- Abstract: A long-standing goal in robot learning is to develop methods for robots to acquire new skills autonomously. While reinforcement learning (RL) comes with the promise of enabling autonomous data collection, it remains challenging to scale in the real-world partly due to the significant effort required for environment design and instrumentation, including the need for designing reset functions or accurate success detectors. On the other hand, imitation learning (IL) methods require little to no environment design effort, but instead require significant human supervision in the form of collected demonstrations. To address these shortcomings, recent works in autonomous IL start with an initial seed dataset of human demonstrations that an autonomous policy can bootstrap from. While autonomous IL approaches come with the promise of addressing the challenges of autonomous RL as well as pure IL strategies, in this work, we posit that such techniques do not deliver on this promise and are still unable to scale up autonomous data collection in the real world. Through a series of real-world experiments, we demonstrate that these approaches, when scaled up to realistic settings, face much of the same scaling challenges as prior attempts in RL in terms of environment design. Further, we perform a rigorous study of autonomous IL methods across different data scales and 7 simulation and real-world tasks, and demonstrate that while autonomous data collection can modestly improve performance, simply collecting more human data often provides significantly more improvement. Our work suggests a negative result: that scaling up autonomous data collection for learning robot policies for real-world tasks is more challenging and impractical than what is suggested in prior work. We hope these insights about the core challenges of scaling up data collection help inform future efforts in autonomous learning.
- Abstract(参考訳): ロボット学習の長年の目標は、ロボットが自律的に新しいスキルを身につける方法を開発することである。
強化学習(RL)は、自律的なデータ収集を可能にするという約束を伴っているが、環境設計や機器設計に要する多大な労力や、リセット機能や正確な成功検知器の設計などのために、現実世界でのスケールアップは依然として困難である。
一方、模倣学習(IL)手法は環境設計の努力をほとんど必要とせず、むしろ収集された実演の形で、かなりの人的監督を必要とする。
これらの欠点に対処するため、最近の自律的ILの研究は、人間のデモの最初のシードデータセットから始まり、自律的なポリシーがブートストラップできる。
自律的ILアプローチは、自律的RLと純粋なIL戦略の課題に対処するという約束を伴っているが、本研究では、そのような技術がこの約束を果たすことができず、まだ現実の世界で自律的なデータ収集をスケールアップできないと仮定する。
実世界の一連の実験を通して、これらのアプローチが現実的な設定まで拡張されると、環境設計の観点からRLの以前の試みとほとんど同じスケーリング課題に直面することを実証した。
さらに、異なるデータスケールと7つのシミュレーションおよび実世界のタスクにわたる自律型IL手法の厳密な研究を行い、自律型データ収集はパフォーマンスを適度に改善するが、単に人的データを集めるだけでは改善が得られないことを示した。
私たちの研究は、現実のタスクのためのロボットポリシーを学ぶために、自律的なデータ収集をスケールアップすることは、以前の作業よりも困難で非現実的であることを示唆している。
データ収集のスケールアップにおける中核的な課題に関するこれらの洞察が、自律学習の今後の取り組みに役立てることを願っています。
関連論文リスト
- Autonomous Improvement of Instruction Following Skills via Foundation Models [44.63552778566584]
自律的に収集された経験から改善できる知能的な指示追従ロボットは、ロボット学習を変革する可能性がある。
人的監督なしに自律的に収集したデータから、指示追従ポリシーを改善できる新しいアプローチを提案する。
実世界において、我々のアプローチの有効性を実証する広範な実験を行い、目に見えない環境のスイートにおいて、自律的に収集されたデータを用いてロボットポリシーを2倍に改善できることを見出した。
論文 参考訳(メタデータ) (2024-07-30T08:26:44Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from
Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - What Matters in Learning from Offline Human Demonstrations for Robot
Manipulation [64.43440450794495]
ロボット操作のための6つのオフライン学習アルゴリズムについて広範な研究を行う。
我々の研究は、オフラインの人間のデータから学習する際の最も重要な課題を分析します。
人間のデータセットから学ぶ機会を強調します。
論文 参考訳(メタデータ) (2021-08-06T20:48:30Z) - Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文 参考訳(メタデータ) (2020-02-25T18:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。