論文の概要: Human-in-the-Loop Methods for Data-Driven and Reinforcement Learning
Systems
- arxiv url: http://arxiv.org/abs/2008.13221v1
- Date: Sun, 30 Aug 2020 17:28:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 12:02:19.212765
- Title: Human-in-the-Loop Methods for Data-Driven and Reinforcement Learning
Systems
- Title(参考訳): データ駆動型強化学習システムのためのHuman-in-the-Loop法
- Authors: Vinicius G. Goecks
- Abstract要約: 本研究では,人間同士の相互作用を強化学習ループに組み込む方法について検討する。
その結果,人間同士の相互作用に基づいて学習した報奨信号は,強化学習アルゴリズムの学習速度を加速させることがわかった。
- 参考スコア(独自算出の注目度): 0.8223798883838329
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent successes combine reinforcement learning algorithms and deep neural
networks, despite reinforcement learning not being widely applied to robotics
and real world scenarios. This can be attributed to the fact that current
state-of-the-art, end-to-end reinforcement learning approaches still require
thousands or millions of data samples to converge to a satisfactory policy and
are subject to catastrophic failures during training. Conversely, in real world
scenarios and after just a few data samples, humans are able to either provide
demonstrations of the task, intervene to prevent catastrophic actions, or
simply evaluate if the policy is performing correctly. This research
investigates how to integrate these human interaction modalities to the
reinforcement learning loop, increasing sample efficiency and enabling
real-time reinforcement learning in robotics and real world scenarios. This
novel theoretical foundation is called Cycle-of-Learning, a reference to how
different human interaction modalities, namely, task demonstration,
intervention, and evaluation, are cycled and combined to reinforcement learning
algorithms. Results presented in this work show that the reward signal that is
learned based upon human interaction accelerates the rate of learning of
reinforcement learning algorithms and that learning from a combination of human
demonstrations and interventions is faster and more sample efficient when
compared to traditional supervised learning algorithms. Finally,
Cycle-of-Learning develops an effective transition between policies learned
using human demonstrations and interventions to reinforcement learning. The
theoretical foundation developed by this research opens new research paths to
human-agent teaming scenarios where autonomous agents are able to learn from
human teammates and adapt to mission performance metrics in real-time and in
real world scenarios.
- Abstract(参考訳): 最近の成功は強化学習アルゴリズムとディープニューラルネットワークを組み合わせているが、強化学習はロボティクスや現実世界のシナリオに広く適用されていない。
これは、現在の最先端のエンドツーエンドの強化学習アプローチでは、満足のいく方針に収束するために数千、数百万のデータサンプルが必要であり、トレーニング中に破滅的な失敗を被るという事実に起因している。
逆に、現実のシナリオやほんの数回のデータサンプルの後では、人間はタスクのデモンストレーションを提供するか、破滅的な行動を防ぐために介入するか、ポリシーが正しく機能しているかどうかを単純に評価できる。
本研究は,ロボット工学および実世界のシナリオにおいて,これらの人的相互作用を強化学習ループに統合し,サンプル効率を高め,リアルタイム強化学習を可能にする方法について検討する。
この理論の基礎は「Cycle-of-Learning(学習のサイクル)」と呼ばれ、人間の相互作用の異なるモダリティ、すなわちタスクのデモンストレーション、介入、評価が、どのようにサイクル化され、強化学習アルゴリズムと組み合わせられるかを示す。
その結果,人間インタラクションに基づいて学習される報酬信号は強化学習アルゴリズムの学習速度を加速し,従来の教師付き学習アルゴリズムと比較して,人間のデモンストレーションと介入の組み合わせによる学習はより高速かつ効率的にサンプル化できることがわかった。
最後に、Cycle-of-Learningは、人間の実証から学んだポリシーと強化学習への介入の効果的な移行を開発する。
この研究によって開発された理論的基礎は、自律エージェントが人間のチームメイトから学び、リアルタイムおよび現実世界のシナリオでミッションパフォーマンスのメトリクスに適応できる、ヒューマンエージェントのチームシナリオへの新たな研究パスを開く。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Exploiting Symmetry and Heuristic Demonstrations in Off-policy
Reinforcement Learning for Robotic Manipulation [1.7901837062462316]
本稿では,物理ロボット環境に存在する自然対称性を定義し,組み込むことを目的とする。
提案手法は,産業用アームの2つのポイント・ツー・ポイント・リーチタスクによって,障害物を伴わずに検証される。
提案手法と従来の非政治強化学習アルゴリズムとの比較研究は,アプリケーションにおける学習性能と潜在的価値の優位性を示している。
論文 参考訳(メタデータ) (2023-04-12T11:38:01Z) - What Matters in Learning from Offline Human Demonstrations for Robot
Manipulation [64.43440450794495]
ロボット操作のための6つのオフライン学習アルゴリズムについて広範な研究を行う。
我々の研究は、オフラインの人間のデータから学習する際の最も重要な課題を分析します。
人間のデータセットから学ぶ機会を強調します。
論文 参考訳(メタデータ) (2021-08-06T20:48:30Z) - Active Hierarchical Imitation and Reinforcement Learning [0.0]
本研究では,我々が開発した階層的模倣強化学習フレームワークを用いて,様々な模倣学習アルゴリズムを探索し,アクティブ学習アルゴリズムを設計した。
実験の結果,daggerと報酬ベースのアクティブラーニング手法は,トレーニング過程において身体的および精神的により多くの努力を省きながら,よりよいパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2020-12-14T08:27:27Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z) - Human-guided Robot Behavior Learning: A GAN-assisted Preference-based
Reinforcement Learning Approach [2.9764834057085716]
本稿では,新しいGAN支援人間嗜好に基づく強化学習手法を提案する。
GAN(Generative Adversarial Network)を使用して、人間の嗜好を積極的に学習し、選好を割り当てる際の人間の役割を置き換える。
本手法は, 性能犠牲を伴わずに, 約99.8%の人的時間を短縮することができる。
論文 参考訳(メタデータ) (2020-10-15T01:44:06Z) - Human Trajectory Forecasting in Crowds: A Deep Learning Perspective [89.4600982169]
本稿では,既存の深層学習に基づくソーシャルインタラクションのモデル化手法について詳細に分析する。
本稿では、これらの社会的相互作用を効果的に捉えるための知識に基づく2つのデータ駆動手法を提案する。
我々は,人間の軌道予測分野において,重要かつ欠落したコンポーネントであるTrajNet++を大規模に開発する。
論文 参考訳(メタデータ) (2020-07-07T17:19:56Z) - Never Stop Learning: The Effectiveness of Fine-Tuning in Robotic
Reinforcement Learning [109.77163932886413]
本稿では,ロボットによるロボット操作ポリシーを,政治以外の強化学習を通じて微調整することで,新たなバリエーションに適応する方法を示す。
この適応は、タスクをゼロから学習するために必要なデータの0.2%未満を使用する。
事前訓練されたポリシーを適用するという私たちのアプローチは、微調整の過程で大きなパフォーマンス向上につながります。
論文 参考訳(メタデータ) (2020-04-21T17:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。