論文の概要: Active Hierarchical Imitation and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2012.07330v1
- Date: Mon, 14 Dec 2020 08:27:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 14:38:32.098256
- Title: Active Hierarchical Imitation and Reinforcement Learning
- Title(参考訳): アクティブ階層的模倣と強化学習
- Authors: Yaru Niu, Yijun Gu
- Abstract要約: 本研究では,我々が開発した階層的模倣強化学習フレームワークを用いて,様々な模倣学習アルゴリズムを探索し,アクティブ学習アルゴリズムを設計した。
実験の結果,daggerと報酬ベースのアクティブラーニング手法は,トレーニング過程において身体的および精神的により多くの努力を省きながら,よりよいパフォーマンスを達成できることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans can leverage hierarchical structures to split a task into sub-tasks
and solve problems efficiently. Both imitation and reinforcement learning or a
combination of them with hierarchical structures have been proven to be an
efficient way for robots to learn complex tasks with sparse rewards. However,
in the previous work of hierarchical imitation and reinforcement learning, the
tested environments are in relatively simple 2D games, and the action spaces
are discrete. Furthermore, many imitation learning works focusing on improving
the policies learned from the expert polices that are hard-coded or trained by
reinforcement learning algorithms, rather than human experts. In the scenarios
of human-robot interaction, humans can be required to provide demonstrations to
teach the robot, so it is crucial to improve the learning efficiency to reduce
expert efforts, and know human's perception about the learning/training
process. In this project, we explored different imitation learning algorithms
and designed active learning algorithms upon the hierarchical imitation and
reinforcement learning framework we have developed. We performed an experiment
where five participants were asked to guide a randomly initialized agent to a
random goal in a maze. Our experimental results showed that using DAgger and
reward-based active learning method can achieve better performance while saving
more human efforts physically and mentally during the training process.
- Abstract(参考訳): 人間は階層構造を利用してタスクをサブタスクに分割し、問題を効率的に解くことができる。
模倣と強化学習、あるいはそれらと階層構造の組み合わせは、ロボットが少ない報酬で複雑なタスクを学習する効率的な方法であることが証明されている。
しかし、従来の階層的模倣と強化学習では、テスト環境は比較的単純な2Dゲームであり、アクション空間は離散的である。
さらに、人間の専門家ではなく、強化学習アルゴリズムによってハードコードされたり訓練されたりした専門家警察から学んだ政策の改善に焦点を当てた模倣学習作業も数多く行われている。
人間とロボットの相互作用のシナリオでは、人間はロボットに教えるためのデモンストレーションを提供する必要があるため、学習効率の向上、専門家の努力の削減、学習/トレーニングプロセスに対する人間の認識を知ることが不可欠である。
本研究は,我々が開発した階層的模倣・強化学習フレームワークに基づいて,異なる模倣学習アルゴリズムを探索し,アクティブな学習アルゴリズムを設計した。
迷路内のランダムな目標にランダムに初期化エージェントを誘導する5人の被験者を対象に実験を行った。
実験の結果,daggerと報酬ベースのアクティブラーニング手法は,トレーニング過程において身体的および精神的により多くの努力を省きながら,よりよいパフォーマンスを達成できることがわかった。
関連論文リスト
- SPIRE: Synergistic Planning, Imitation, and Reinforcement Learning for Long-Horizon Manipulation [58.14969377419633]
タスクをより小さな学習サブプロブレムに分解し、第2に模倣と強化学習を組み合わせてその強みを最大化するシステムであるspireを提案する。
我々は、模倣学習、強化学習、計画を統合する従来の手法よりも平均タスク性能が35%から50%向上していることを発見した。
論文 参考訳(メタデータ) (2024-10-23T17:42:07Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Human Decision Makings on Curriculum Reinforcement Learning with
Difficulty Adjustment [52.07473934146584]
我々は,カリキュラム強化学習結果を,人的意思決定プロセスから学ぶことで,難しすぎず,難しすぎるような望ましいパフォーマンスレベルに導く。
本システムは非常に並列化可能であり,大規模強化学習アプリケーションの訓練が可能となる。
強化学習性能は、人間の所望の難易度と同期してうまく調整できることが示される。
論文 参考訳(メタデータ) (2022-08-04T23:53:51Z) - Physics-Guided Hierarchical Reward Mechanism for Learning-Based Robotic
Grasping [10.424363966870775]
我々は,学習効率と学習に基づく自律的把握の一般化性を向上させるために,階層的リワード機構を備えた物理誘導型深層強化学習を開発した。
本手法は3本指MICOロボットアームを用いたロボット把握作業において有効である。
論文 参考訳(メタデータ) (2022-05-26T18:01:56Z) - Divide & Conquer Imitation Learning [75.31752559017978]
模倣学習は学習プロセスをブートストラップするための強力なアプローチである。
本稿では,専門的軌道の状態から複雑なロボットタスクを模倣する新しいアルゴリズムを提案する。
提案手法は,非ホロノミックナビゲーションタスクを模倣し,非常に高いサンプル効率で複雑なロボット操作タスクにスケールすることを示す。
論文 参考訳(メタデータ) (2022-04-15T09:56:50Z) - Prioritized Experience-based Reinforcement Learning with Human Guidance:
Methdology and Application to Autonomous Driving [2.5895890901896124]
強化学習は、最適化と制御問題を解決するために、巧妙な定義と卓越した計算努力を必要とする。
本稿では,人間指導に基づく総合的な強化学習フレームワークを構築した。
強化学習アルゴリズムの効率性と性能を高めるために,人間の指導に適応する新たな優先体験再生機構を提案する。
論文 参考訳(メタデータ) (2021-09-26T07:19:26Z) - Human-in-the-Loop Methods for Data-Driven and Reinforcement Learning
Systems [0.8223798883838329]
本研究では,人間同士の相互作用を強化学習ループに組み込む方法について検討する。
その結果,人間同士の相互作用に基づいて学習した報奨信号は,強化学習アルゴリズムの学習速度を加速させることがわかった。
論文 参考訳(メタデータ) (2020-08-30T17:28:18Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z) - Learn Task First or Learn Human Partner First: A Hierarchical Task
Decomposition Method for Human-Robot Cooperation [11.387868752604986]
本研究は、ロボットが人間のパートナーの振る舞いを学習することとは別に、階層的動的制御タスクを学習できるようにする階層的報酬機構を備えた新しいタスク分解手法を提案する。
その結果、ロボットは、まずタスクを学習し、より高いチームパフォーマンスを達成し、次に人間を学習し、より高い学習効率を達成することが示唆された。
論文 参考訳(メタデータ) (2020-03-01T04:41:49Z) - Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文 参考訳(メタデータ) (2020-02-25T18:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。