論文の概要: Learning from Imperfect Demonstrations with Self-Supervision for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2401.08957v2
- Date: Mon, 17 Feb 2025 06:41:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:03:48.039000
- Title: Learning from Imperfect Demonstrations with Self-Supervision for Robotic Manipulation
- Title(参考訳): ロボットマニピュレーションのための自己スーパービジョンによる不完全なデモからの学習
- Authors: Kun Wu, Ning Liu, Zhen Zhao, Di Qiu, Jinming Li, Zhengping Che, Zhiyuan Xu, Qinru Qiu, Jian Tang,
- Abstract要約: 現在の模倣学習(IL)は通常不完全なデータを破棄し、成功した専門家データにのみ焦点をあてる。
本稿では、専門家と不完全なデータを組み合わせた自己監督データフィルタリングフレームワーク(SSDF)を導入し、故障したトラジェクトリセグメントの品質スコアを計算する。
SSDFは、高品質な不完全なデータでトレーニングデータセットを正確に拡張し、すべてのロボット操作タスクの成功率を改善する。
- 参考スコア(独自算出の注目度): 31.592761504827187
- License:
- Abstract: Improving data utilization, especially for imperfect data from task failures, is crucial for robotic manipulation due to the challenging, time-consuming, and expensive data collection process in the real world. Current imitation learning (IL) typically discards imperfect data, focusing solely on successful expert data. While reinforcement learning (RL) can learn from explorations and failures, the sim2real gap and its reliance on dense reward and online exploration make it difficult to apply effectively in real-world scenarios. In this work, we aim to conquer the challenge of leveraging imperfect data without the need for reward information to improve the model performance for robotic manipulation in an offline manner. Specifically, we introduce a Self-Supervised Data Filtering framework (SSDF) that combines expert and imperfect data to compute quality scores for failed trajectory segments. High-quality segments from the failed data are used to expand the training dataset. Then, the enhanced dataset can be used with any downstream policy learning method for robotic manipulation tasks. Extensive experiments on the ManiSkill2 benchmark built on the high-fidelity Sapien simulator and real-world robotic manipulation tasks using the Franka robot arm demonstrated that the SSDF can accurately expand the training dataset with high-quality imperfect data and improve the success rates for all robotic manipulation tasks.
- Abstract(参考訳): データ利用の改善、特にタスク障害からの不完全なデータに対する改善は、現実の困難な、時間を要する、高価なデータ収集プロセスのために、ロボット操作にとって不可欠である。
現在の模倣学習(IL)は通常不完全なデータを破棄し、成功した専門家データにのみ焦点をあてる。
強化学習(RL)は、探索や失敗から学ぶことができるが、シム2リアルギャップとその高密度報酬とオンライン探索への依存は、現実世界のシナリオに効果的に適用することが困難である。
本研究では,ロボット操作のモデル性能をオフラインで向上させるため,報酬情報を必要とせずに不完全なデータを活用するという課題を克服することを目的とする。
具体的には、専門家と不完全なデータを組み合わせた自己監督データフィルタリングフレームワーク(SSDF)を導入し、トラジェクトリセグメントの故障に対する品質スコアを計算する。
失敗したデータから高品質なセグメントを使用して、トレーニングデータセットを拡張する。
次に、強化されたデータセットは、ロボット操作タスクの下流ポリシー学習メソッドで使用することができる。
高忠実度サピエンシミュレータと実世界のロボット操作タスクに基づいて構築されたManiSkill2ベンチマークの大規模な実験は、SSDFが高品質な不完全なデータでトレーニングデータセットを正確に拡張し、すべてのロボット操作タスクの成功率を向上させることを実証した。
関連論文リスト
- Simulation as Reality? The Effectiveness of LLM-Generated Data in Open-ended Question Assessment [7.695222586877482]
本研究では,AIに基づくアセスメントツールの限界に対処するため,シミュレーションデータの可能性とギャップについて検討する。
シミュレーションデータから, 自動評価モデルのトレーニングにおいて有望な結果が得られたが, 有効性には顕著な限界があることが判明した。
過度に処理された実世界のデータにも存在する実世界のノイズとバイアスが存在しないことが、この制限に寄与する。
論文 参考訳(メタデータ) (2025-02-10T11:40:11Z) - So You Think You Can Scale Up Autonomous Robot Data Collection? [22.7035324720716]
強化学習(RL)には、自律的なデータ収集を可能にするという約束がある。
環境設計と計測に要する多大な労力のために、現実世界でのスケーリングは依然として困難である。
イミテーション・ラーニング (IL) の手法は環境設計の努力をほとんど必要とせず、人的監督を必要とする。
論文 参考訳(メタデータ) (2024-11-04T05:31:35Z) - Guided Data Augmentation for Offline Reinforcement Learning and Imitation Learning [3.586527534935176]
オフライン強化学習(RL)では、RLエージェントは、以前に収集したデータの固定データセットのみを使用してタスクを解決することを学習する。
本稿では,専門家の質の高い拡張データを生成するためのガイド付きデータ拡張(GuDA)を提案する。
GuDAは、潜在的に最適でない経験の小さな初期データセットを与えられた学習を可能にする。
論文 参考訳(メタデータ) (2023-10-27T16:34:00Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Offline Robot Reinforcement Learning with Uncertainty-Guided Human
Expert Sampling [11.751910133386254]
バッチ(オフライン)強化学習の最近の進歩は、利用可能なオフラインデータから学習する上で有望な結果を示している。
本研究では,不確実性推定を用いて人間の実演データを注入する手法を提案する。
実験の結果,本手法は,専門家データと準最適エージェントから収集したデータを組み合わせる方法に比べて,よりサンプル効率が高いことがわかった。
論文 参考訳(メタデータ) (2022-12-16T01:41:59Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - Deep Reinforcement Learning Assisted Federated Learning Algorithm for
Data Management of IIoT [82.33080550378068]
産業用IoT(Industrial Internet of Things)の継続的な拡大により、IIoT機器は毎回大量のユーザデータを生成する。
IIoTの分野で、これらの時系列データを効率的かつ安全な方法で管理する方法は、依然として未解決の問題である。
本稿では,無線ネットワーク環境におけるIIoT機器データ管理におけるFL技術の適用について検討する。
論文 参考訳(メタデータ) (2022-02-03T07:12:36Z) - Efficient Realistic Data Generation Framework leveraging Deep
Learning-based Human Digitization [0.0]
提案手法は、実際の背景画像として入力され、さまざまなポーズで人物を投入する。
対応するタスクのベンチマークと評価は、実データに対する補足として、合成データが効果的に使用できることを示している。
論文 参考訳(メタデータ) (2021-06-28T08:07:31Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。