論文の概要: Learning from Suboptimal Demonstration via Self-Supervised Reward
Regression
- arxiv url: http://arxiv.org/abs/2010.11723v3
- Date: Mon, 23 Nov 2020 16:07:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 12:24:16.422822
- Title: Learning from Suboptimal Demonstration via Self-Supervised Reward
Regression
- Title(参考訳): 自己監督的逆回帰による準最適演示からの学習
- Authors: Letian Chen, Rohan Paleja, Matthew Gombolay
- Abstract要約: 実証から学ぶ(LfD)は、ロボット工学の民主化を目指す。
現代のLfD技術、例えば逆強化学習(IRL)は、ユーザーが少なくとも最適なデモを提供すると仮定する。
これらの手法が誤った仮定をしており、不安定で劣化した性能に悩まされていることを示す。
本研究では,卓球におけるトップスピンストライクをロボットに教える物理的な実演を行い,ユーザの実演よりも32%,トップスピンが40%向上した。
- 参考スコア(独自算出の注目度): 1.2891210250935146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from Demonstration (LfD) seeks to democratize robotics by enabling
non-roboticist end-users to teach robots to perform a task by providing a human
demonstration. However, modern LfD techniques, e.g. inverse reinforcement
learning (IRL), assume users provide at least stochastically optimal
demonstrations. This assumption fails to hold in most real-world scenarios.
Recent attempts to learn from sub-optimal demonstration leverage pairwise
rankings and following the Luce-Shepard rule. However, we show these approaches
make incorrect assumptions and thus suffer from brittle, degraded performance.
We overcome these limitations in developing a novel approach that bootstraps
off suboptimal demonstrations to synthesize optimality-parameterized data to
train an idealized reward function. We empirically validate we learn an
idealized reward function with ~0.95 correlation with ground-truth reward
versus ~0.75 for prior work. We can then train policies achieving ~200%
improvement over the suboptimal demonstration and ~90% improvement over prior
work. We present a physical demonstration of teaching a robot a topspin strike
in table tennis that achieves 32% faster returns and 40% more topspin than user
demonstration.
- Abstract(参考訳): learning from demonstration(lfd)は、非ロボット主義のエンドユーザがロボットに人間のデモを提供することでタスクを実行するように教えることを可能にすることで、ロボティクスの民主化を目指している。
しかし、現代のLfD技術、例えば逆強化学習(IRL)は、ユーザが少なくとも確率論的に最適なデモを提供すると仮定する。
この仮定は現実世界のほとんどのシナリオでは成り立たない。
準最適実証から学ぶための最近の試みは、ペアワイズランキングとルース・シェパード則に従う。
しかし,これらの手法は誤った仮定をしており,不安定で劣化した性能に悩まされている。
これらの制限を克服し、最適度パラメータ化されたデータを合成し、最適報酬関数を訓練する手法を開発した。
実験により,前処理では ~0.75 に対して ~0.95 の相関を持つ理想化された報酬関数を学習する。
そして、サブオプティマイズよりも200%改善し、以前の作業よりも90%改善できるポリシーをトレーニングできます。
本研究では,卓球におけるトップスピンストライクをロボットに教える実演を行い,ユーザの実演よりも32%,トップスピンが40%向上した。
関連論文リスト
- What Matters to You? Towards Visual Representation Alignment for Robot
Learning [81.30964736676103]
人のために運用する場合、ロボットはエンドユーザーの好みに合わせて報酬を最適化する必要がある。
本稿では、視覚的表現アライメント問題を解決するためのRAPL(Representation-Aligned Preference-based Learning)を提案する。
論文 参考訳(メタデータ) (2023-10-11T23:04:07Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics via
Novel-View Synthesis [50.93065653283523]
SPARTN(Synthetic Perturbations for Augmenting Robot Trajectories via NeRF)は、ロボットポリシーを改善するための完全なオフラインデータ拡張スキームである。
提案手法はニューラルレイディアンス場(NeRF)を利用して,視覚的デモンストレーションに補正ノイズを合成注入する。
シミュレーションされた6-DoF視覚的把握ベンチマークでは、SPARTNは精度を2.8$times$で改善する。
論文 参考訳(メタデータ) (2023-01-18T23:25:27Z) - Few-Shot Preference Learning for Human-in-the-Loop RL [13.773589150740898]
メタラーニングの成功に触発された我々は、先行タスクデータに対する嗜好モデルを事前訓練し、少数のクエリだけで新しいタスクに迅速に適応する。
メタワールドにおける操作ポリシーのトレーニングに必要なオンラインフィードバックの量を20$times$に削減し,実際のフランカ・パンダロボット上での手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-12-06T23:12:26Z) - Learning Preferences for Interactive Autonomy [1.90365714903665]
この論文は、他のより信頼性の高いデータモダリティを用いて、人間のユーザーから報酬関数を学習する試みである。
まず、まず、ペアワイズ比較、ベスト・オブ・マンティ選択、ランキング、スケールされた比較など、さまざまな形態の比較フィードバックを提案し、ロボットがこれらの形態の人間のフィードバックを使って報酬関数を推測する方法を説明する。
論文 参考訳(メタデータ) (2022-10-19T21:34:51Z) - Fast Lifelong Adaptive Inverse Reinforcement Learning from
Demonstrations [1.6050172226234585]
我々は,新しいLfDフレームワークであるFast Lifelong Adaptive Inverse Reinforcement Learning (FLAIR)を提案する。
FLAIRが適応性(ロボットが不均一でユーザ固有のタスク嗜好に適応する)、効率(ロボットがサンプル効率のよい適応を達成する)、スケーラビリティを実証的に検証する。
FLAIRは3つのコントロールタスクでベンチマークを上回り、ポリシーリターンが平均57%改善し、デモモデリングに必要なエピソードが平均78%減少した。
論文 参考訳(メタデータ) (2022-09-24T02:48:02Z) - Towards Sample-efficient Apprenticeship Learning from Suboptimal
Demonstration [1.6114012813668934]
本稿では, トラジェクトリ劣化に対する系統的代替策を検討するために, S3RRを提案する。
S3RRは、最適でないデモンストレーションフレームワークから最先端の学習に対して、地道と同等あるいはより良い報酬相関を学習できる。
論文 参考訳(メタデータ) (2021-10-08T19:15:32Z) - Learning to Run with Potential-Based Reward Shaping and Demonstrations
from Video Data [70.540936204654]
「走ることを学ぶ」競技は、二本足のヒューマノイドボディを最高速度で模擬レースコースで走るように訓練することであった。
すべての提出者は、強化学習(RL)へのタブラララサアプローチを採り入れ、比較的速いが最適な実行動作は得られなかった。
本研究では,人間のランニング映像から得られるデータを用いて,ヒューマノイド学習エージェントの報酬を形成できることを示す。
論文 参考訳(メタデータ) (2020-12-16T09:46:58Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Active Preference-Based Gaussian Process Regression for Reward Learning [42.697198807877925]
一般的なアプローチの1つは、収集された専門家によるデモンストレーションから報酬関数を学ぶことである。
選好に基づく学習手法を提案し、その代替として、人間のフィードバックは軌跡間の比較の形でのみ存在する。
当社のアプローチは、嗜好に基づく学習フレームワークにおいて、柔軟性とデータ非効率の両問題に対処することを可能にする。
論文 参考訳(メタデータ) (2020-05-06T03:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。