論文の概要: Learning from Suboptimal Demonstration via Self-Supervised Reward
Regression
- arxiv url: http://arxiv.org/abs/2010.11723v3
- Date: Mon, 23 Nov 2020 16:07:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 12:24:16.422822
- Title: Learning from Suboptimal Demonstration via Self-Supervised Reward
Regression
- Title(参考訳): 自己監督的逆回帰による準最適演示からの学習
- Authors: Letian Chen, Rohan Paleja, Matthew Gombolay
- Abstract要約: 実証から学ぶ(LfD)は、ロボット工学の民主化を目指す。
現代のLfD技術、例えば逆強化学習(IRL)は、ユーザーが少なくとも最適なデモを提供すると仮定する。
これらの手法が誤った仮定をしており、不安定で劣化した性能に悩まされていることを示す。
本研究では,卓球におけるトップスピンストライクをロボットに教える物理的な実演を行い,ユーザの実演よりも32%,トップスピンが40%向上した。
- 参考スコア(独自算出の注目度): 1.2891210250935146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from Demonstration (LfD) seeks to democratize robotics by enabling
non-roboticist end-users to teach robots to perform a task by providing a human
demonstration. However, modern LfD techniques, e.g. inverse reinforcement
learning (IRL), assume users provide at least stochastically optimal
demonstrations. This assumption fails to hold in most real-world scenarios.
Recent attempts to learn from sub-optimal demonstration leverage pairwise
rankings and following the Luce-Shepard rule. However, we show these approaches
make incorrect assumptions and thus suffer from brittle, degraded performance.
We overcome these limitations in developing a novel approach that bootstraps
off suboptimal demonstrations to synthesize optimality-parameterized data to
train an idealized reward function. We empirically validate we learn an
idealized reward function with ~0.95 correlation with ground-truth reward
versus ~0.75 for prior work. We can then train policies achieving ~200%
improvement over the suboptimal demonstration and ~90% improvement over prior
work. We present a physical demonstration of teaching a robot a topspin strike
in table tennis that achieves 32% faster returns and 40% more topspin than user
demonstration.
- Abstract(参考訳): learning from demonstration(lfd)は、非ロボット主義のエンドユーザがロボットに人間のデモを提供することでタスクを実行するように教えることを可能にすることで、ロボティクスの民主化を目指している。
しかし、現代のLfD技術、例えば逆強化学習(IRL)は、ユーザが少なくとも確率論的に最適なデモを提供すると仮定する。
この仮定は現実世界のほとんどのシナリオでは成り立たない。
準最適実証から学ぶための最近の試みは、ペアワイズランキングとルース・シェパード則に従う。
しかし,これらの手法は誤った仮定をしており,不安定で劣化した性能に悩まされている。
これらの制限を克服し、最適度パラメータ化されたデータを合成し、最適報酬関数を訓練する手法を開発した。
実験により,前処理では ~0.75 に対して ~0.95 の相関を持つ理想化された報酬関数を学習する。
そして、サブオプティマイズよりも200%改善し、以前の作業よりも90%改善できるポリシーをトレーニングできます。
本研究では,卓球におけるトップスピンストライクをロボットに教える実演を行い,ユーザの実演よりも32%,トップスピンが40%向上した。
関連論文リスト
- FLaRe: Achieving Masterful and Adaptive Robot Policies with Large-Scale Reinforcement Learning Fine-Tuning [74.25049012472502]
FLaReは、堅牢な事前訓練された表現、大規模なトレーニング、勾配安定化技術を統合する大規模な強化学習フレームワークである。
提案手法は,タスク完了に向けた事前訓練されたポリシーを整列し,これまで実証され,全く新しいタスクや実施状況において,最先端(SoTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-25T03:15:17Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Reward Learning from Suboptimal Demonstrations with Applications in Surgical Electrocautery [10.38505087117544]
本稿では,限られたランク付けされた準最適実験から頑健な報酬関数を学習する,サンプル効率のよい手法を提案する。
学習した報酬関数を用いてポリシーを得ることは、純粋な模倣学習よりも堅牢であることを示す。
本手法は身体的外科的電気診断に応用し, 提案した実証実験が最適条件下であっても良好に動作できることを実証する。
論文 参考訳(メタデータ) (2024-04-10T17:40:27Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics via
Novel-View Synthesis [50.93065653283523]
SPARTN(Synthetic Perturbations for Augmenting Robot Trajectories via NeRF)は、ロボットポリシーを改善するための完全なオフラインデータ拡張スキームである。
提案手法はニューラルレイディアンス場(NeRF)を利用して,視覚的デモンストレーションに補正ノイズを合成注入する。
シミュレーションされた6-DoF視覚的把握ベンチマークでは、SPARTNは精度を2.8$times$で改善する。
論文 参考訳(メタデータ) (2023-01-18T23:25:27Z) - Learning Preferences for Interactive Autonomy [1.90365714903665]
この論文は、他のより信頼性の高いデータモダリティを用いて、人間のユーザーから報酬関数を学習する試みである。
まず、まず、ペアワイズ比較、ベスト・オブ・マンティ選択、ランキング、スケールされた比較など、さまざまな形態の比較フィードバックを提案し、ロボットがこれらの形態の人間のフィードバックを使って報酬関数を推測する方法を説明する。
論文 参考訳(メタデータ) (2022-10-19T21:34:51Z) - Fast Lifelong Adaptive Inverse Reinforcement Learning from
Demonstrations [1.6050172226234585]
我々は,新しいLfDフレームワークであるFast Lifelong Adaptive Inverse Reinforcement Learning (FLAIR)を提案する。
FLAIRが適応性(ロボットが不均一でユーザ固有のタスク嗜好に適応する)、効率(ロボットがサンプル効率のよい適応を達成する)、スケーラビリティを実証的に検証する。
FLAIRは3つのコントロールタスクでベンチマークを上回り、ポリシーリターンが平均57%改善し、デモモデリングに必要なエピソードが平均78%減少した。
論文 参考訳(メタデータ) (2022-09-24T02:48:02Z) - Towards Sample-efficient Apprenticeship Learning from Suboptimal
Demonstration [1.6114012813668934]
本稿では, トラジェクトリ劣化に対する系統的代替策を検討するために, S3RRを提案する。
S3RRは、最適でないデモンストレーションフレームワークから最先端の学習に対して、地道と同等あるいはより良い報酬相関を学習できる。
論文 参考訳(メタデータ) (2021-10-08T19:15:32Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Active Preference-Based Gaussian Process Regression for Reward Learning [42.697198807877925]
一般的なアプローチの1つは、収集された専門家によるデモンストレーションから報酬関数を学ぶことである。
選好に基づく学習手法を提案し、その代替として、人間のフィードバックは軌跡間の比較の形でのみ存在する。
当社のアプローチは、嗜好に基づく学習フレームワークにおいて、柔軟性とデータ非効率の両問題に対処することを可能にする。
論文 参考訳(メタデータ) (2020-05-06T03:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。