論文の概要: Offline Learning from Demonstrations and Unlabeled Experience
- arxiv url: http://arxiv.org/abs/2011.13885v1
- Date: Fri, 27 Nov 2020 18:20:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 01:18:58.443419
- Title: Offline Learning from Demonstrations and Unlabeled Experience
- Title(参考訳): デモとラベルなし体験によるオフライン学習
- Authors: Konrad Zolna, Alexander Novikov, Ksenia Konyushkova, Caglar Gulcehre,
Ziyu Wang, Yusuf Aytar, Misha Denil, Nando de Freitas, Scott Reed
- Abstract要約: 行動模倣(BC)は、専門家によるデモンストレーションにおける教師あり学習によって、報酬なしでポリシーをオフラインで訓練できるため、ロボット学習において実用的であることが多い。
このラベルのないデータは、人間の遠隔操作、スクリプト化されたポリシー、および同じロボット上の他のエージェントなど、さまざまなソースによって生成される。
オフライン強化学習(Offline Reinforced Learning, ORIL)は, ラベルのない経験を効果的に活用することにより, 同等のBCエージェントより一貫して優れていることを示す。
- 参考スコア(独自算出の注目度): 62.928404936397335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Behavior cloning (BC) is often practical for robot learning because it allows
a policy to be trained offline without rewards, by supervised learning on
expert demonstrations. However, BC does not effectively leverage what we will
refer to as unlabeled experience: data of mixed and unknown quality without
reward annotations. This unlabeled data can be generated by a variety of
sources such as human teleoperation, scripted policies and other agents on the
same robot. Towards data-driven offline robot learning that can use this
unlabeled experience, we introduce Offline Reinforced Imitation Learning
(ORIL). ORIL first learns a reward function by contrasting observations from
demonstrator and unlabeled trajectories, then annotates all data with the
learned reward, and finally trains an agent via offline reinforcement learning.
Across a diverse set of continuous control and simulated robotic manipulation
tasks, we show that ORIL consistently outperforms comparable BC agents by
effectively leveraging unlabeled experience.
- Abstract(参考訳): 行動クローニング(BC)は、専門家によるデモンストレーションに関する教師あり学習によって、報酬なしでポリシーをオフラインでトレーニングできるため、ロボット学習において実用的であることが多い。
しかし、bcは、私たちがラベルのない経験と呼ぶもの、すなわち、報酬のアノテーションなしで、混合品質と未知の品質のデータを有効に活用しません。
このラベルのないデータは、人間の遠隔操作、スクリプト化されたポリシー、および同じロボット上の他のエージェントなど、さまざまなソースによって生成される。
このラベルのない体験を利用できるデータ駆動型オフラインロボット学習に向けて、Offline Reinforced Imitation Learning (ORIL)を紹介する。
ORILはまず、実証者や未ラベルの軌跡からの観察を対比して報酬関数を学び、次にすべてのデータを学習報酬で注釈付けし、最後にオフラインの強化学習を通じてエージェントを訓練する。
各種の連続制御およびロボット操作タスクのシミュレーションにより、ORILはラベルなし体験を効果的に活用することにより、同等のBCエージェントよりも一貫して優れていることを示す。
関連論文リスト
- Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Improving Behavioural Cloning with Positive Unlabeled Learning [15.484227081812852]
本稿では,混合品質のロボットデータセットにおける専門家の軌跡を特定するための,新しい反復学習アルゴリズムを提案する。
結果のフィルタデータセットに行動クローンを適用することで、競合するオフライン強化学習と模倣学習ベースラインを上回っます。
論文 参考訳(メタデータ) (2023-01-27T14:17:45Z) - Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。
我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文 参考訳(メタデータ) (2022-10-21T21:59:42Z) - Opinion Spam Detection: A New Approach Using Machine Learning and
Network-Based Algorithms [2.062593640149623]
オンラインレビューは、消費者が製品やサービスを評価し比較する上で重要な役割を果たす。
偽レビュー(オピニオンスパム)が普及し、顧客やサービスプロバイダに悪影響を及ぼしている。
本稿では,機械学習とメッセージパッシングアルゴリズムを組み合わせて,レビュアーをスパマーや良心として分類する手法を提案する。
論文 参考訳(メタデータ) (2022-05-26T15:27:46Z) - Continual Learning from Demonstration of Robotics Skills [5.573543601558405]
ロボットに動きのスキルを教える方法は、一度に1つのスキルのトレーニングに集中する。
本稿では,ハイパーネットとニューラル常微分方程式解法を用いた実験から連続学習へのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-14T16:26:52Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for
Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。
我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。
ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文 参考訳(メタデータ) (2021-01-02T09:04:14Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。