論文の概要: Watch and Match: Supercharging Imitation with Regularized Optimal
Transport
- arxiv url: http://arxiv.org/abs/2206.15469v1
- Date: Thu, 30 Jun 2022 17:58:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 14:01:42.971617
- Title: Watch and Match: Supercharging Imitation with Regularized Optimal
Transport
- Title(参考訳): watch and match: 正規化最適輸送によるスーパーチャージ模倣
- Authors: Siddhant Haldar and Vaibhav Mathur and Denis Yarats and Lerrel Pinto
- Abstract要約: 正規化された最適輸送(ROT)は、最適輸送に基づく軌道マッチングの最近の進歩に基づく新しい模倣学習アルゴリズムである。
DeepMind Control Suite、OpenAI Robotics Suite、Meta-World Benchmarkにまたがる20の視覚的制御タスクの実験では、専門家のパフォーマンスの90%に達するために平均7.8倍の高速な模倣が実証された。
- 参考スコア(独自算出の注目度): 28.3572924961148
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Imitation learning holds tremendous promise in learning policies efficiently
for complex decision making problems. Current state-of-the-art algorithms often
use inverse reinforcement learning (IRL), where given a set of expert
demonstrations, an agent alternatively infers a reward function and the
associated optimal policy. However, such IRL approaches often require
substantial online interactions for complex control problems. In this work, we
present Regularized Optimal Transport (ROT), a new imitation learning algorithm
that builds on recent advances in optimal transport based trajectory-matching.
Our key technical insight is that adaptively combining trajectory-matching
rewards with behavior cloning can significantly accelerate imitation even with
only a few demonstrations. Our experiments on 20 visual control tasks across
the DeepMind Control Suite, the OpenAI Robotics Suite, and the Meta-World
Benchmark demonstrate an average of 7.8X faster imitation to reach 90% of
expert performance compared to prior state-of-the-art methods. On real-world
robotic manipulation, with just one demonstration and an hour of online
training, ROT achieves an average success rate of 90.1% across 14 tasks.
- Abstract(参考訳): 模倣学習は、複雑な意思決定問題に対して効率的に学習ポリシーを学習する上で非常に有望である。
現在の最先端のアルゴリズムは、しばしば逆強化学習(IRL)を使用し、専門家による一連のデモンストレーションが与えられた場合、エージェントは報酬関数と関連する最適ポリシーを推論する。
しかし、そのようなirlアプローチは、複雑な制御問題に対してかなりのオンラインインタラクションを必要とすることが多い。
本研究では, 最適輸送に基づく軌道整合の最近の進歩を基盤とした新しい模倣学習アルゴリズムであるRegularized Optimal Transport (ROT)を提案する。
我々の重要な技術的洞察は、軌道整合報酬と行動クローニングを適応的に組み合わせることで、ほんの数回のデモンストレーションでも模倣を著しく加速できるということです。
DeepMind Control Suite、OpenAI Robotics Suite、Meta-World Benchmarkにまたがる20の視覚的制御タスクの実験では、従来の最先端の手法と比較して平均7.8倍高速な模倣が専門家のパフォーマンスの90%に達することを示した。
実世界のロボット操作では、1回のデモと1時間のオンライントレーニングで14タスクで平均90.1%の成功率を達成した。
関連論文リスト
- Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning [47.785786984974855]
本稿では,多種多様な操作タスクに対して印象的な性能を示す,ループ内視覚に基づくRLシステムを提案する。
提案手法では,実証と人間の修正,効率的なRLアルゴリズム,その他のシステムレベルの設計選択を統合してポリシを学習する。
提案手法は,再現学習のベースラインと先行RLアプローチを著しく上回り,成功率の平均2倍,実行速度1.8倍に向上した。
論文 参考訳(メタデータ) (2024-10-29T08:12:20Z) - Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - ReProHRL: Towards Multi-Goal Navigation in the Real World using
Hierarchical Agents [1.3194749469702445]
本稿では、強化学習によって誘導される階層的マルチゴールナビゲーションでタスクを分割する生産階層RL(ReProHRL)について述べる。
また、物体検出装置を前処理のステップとして使用して、マルチゴールナビゲーションを学習し、それを現実世界に転送する。
実世界の実装と概念実証のために,提案手法をフロントカメラを用いたナノドローンCrzyflieに展開する。
論文 参考訳(メタデータ) (2023-08-17T02:23:59Z) - Vision-Based Autonomous Car Racing Using Deep Imitative Reinforcement
Learning [13.699336307578488]
深層模倣強化学習(DIRL)は、視覚入力を使用してアジャイルな自律レースを実現する。
我々は,高忠実性運転シミュレーションと実世界の1/20スケールRC-car上での車載計算の制限により,本アルゴリズムの有効性を検証した。
論文 参考訳(メタデータ) (2021-07-18T00:00:48Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Reinforcement Learning Experiments and Benchmark for Solving Robotic
Reaching Tasks [0.0]
強化学習はロボットアームによる到達タスクの解決に成功している。
ハイドサイト体験再生探索技術により報奨信号の増大が, オフ・ポリティクス・エージェントの平均リターンを増加させることが示されている。
論文 参考訳(メタデータ) (2020-11-11T14:00:49Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - Assembly robots with optimized control stiffness through reinforcement
learning [3.4410212782758047]
本稿では,ロボットの性能向上のために強化学習を利用する手法を提案する。
提案手法は,局所軌道最適化の性能向上に役立つ剛性行列のオンライン生成を保証する。
本手法の有効性は,2つのコンタクトリッチタスクを含む実験により検証した。
論文 参考訳(メタデータ) (2020-02-27T15:54:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。