論文の概要: Minimizing Human Assistance: Augmenting a Single Demonstration for Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2209.11275v2
- Date: Sun, 19 Mar 2023 03:14:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 03:13:26.116211
- Title: Minimizing Human Assistance: Augmenting a Single Demonstration for Deep
Reinforcement Learning
- Title(参考訳): 人的支援の最小化: 深層強化学習のための1つのデモ
- Authors: Abraham George, Alison Bartsch, and Amir Barati Farimani
- Abstract要約: 簡単なバーチャルリアリティーシミュレーションによって収集された1つの人間の例を用いて、RLトレーニングを支援する。
提案手法は,人間的なデモを多数生成するために,1つのデモを増強する。
人間の例から学ぶにもかかわらず、エージェントは人間レベルのパフォーマンスに制約されない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The use of human demonstrations in reinforcement learning has proven to
significantly improve agent performance. However, any requirement for a human
to manually 'teach' the model is somewhat antithetical to the goals of
reinforcement learning. This paper attempts to minimize human involvement in
the learning process while retaining the performance advantages by using a
single human example collected through a simple-to-use virtual reality
simulation to assist with RL training. Our method augments a single
demonstration to generate numerous human-like demonstrations that, when
combined with Deep Deterministic Policy Gradients and Hindsight Experience
Replay (DDPG + HER) significantly improve training time on simple tasks and
allows the agent to solve a complex task (block stacking) that DDPG + HER alone
cannot solve. The model achieves this significant training advantage using a
single human example, requiring less than a minute of human input. Moreover,
despite learning from a human example, the agent is not constrained to
human-level performance, often learning a policy that is significantly
different from the human demonstration.
- Abstract(参考訳): 強化学習における人間の実演の使用は、エージェントのパフォーマンスを著しく改善することが証明されている。
しかし、人間の手作業によるモデルへの要求は、強化学習の目的に対してやや反則的である。
本稿では,RL学習を支援するために,簡単な仮想現実シミュレーションを用いて収集した1人の人間の例を用いて,学習過程における人間の関与を最小限に抑えながら,性能上の優位性を維持することを試みる。
提案手法は,Deep Deterministic Policy Gradients and Hindsight Experience Replay(DDPG + HER)と組み合わせることで,単純なタスクのトレーニング時間を大幅に改善し,DDPG + HERだけでは解決できない複雑なタスク(ブロックスタック)をエージェントが解決できるようにする。
このモデルは、人間の1つの例を使って、この重要なトレーニングアドバンテージを達成し、1分以内の入力を必要とする。
さらに、人間の例から学ぶにもかかわらず、エージェントは人間レベルのパフォーマンスに拘束されず、しばしば人間の実演と大きく異なるポリシーを学ぶ。
関連論文リスト
- MILES: Making Imitation Learning Easy with Self-Supervision [12.314942459360605]
MILESは完全に自律的で自己管理型のデータ収集パラダイムである。
MILESは,1つの実演と1つの環境リセットから,効率的なポリシー学習を可能にする。
論文 参考訳(メタデータ) (2024-10-25T17:06:50Z) - GUIDE: Real-Time Human-Shaped Agents [4.676987516944155]
リアルタイム強化学習のためのGUIDEを紹介した。
人間のフィードバックが10分しかなく、我々のアルゴリズムはRLベースラインと比較して最大30%の成功率を達成できる。
論文 参考訳(メタデータ) (2024-10-19T18:59:39Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、20Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Human Decision Makings on Curriculum Reinforcement Learning with
Difficulty Adjustment [52.07473934146584]
我々は,カリキュラム強化学習結果を,人的意思決定プロセスから学ぶことで,難しすぎず,難しすぎるような望ましいパフォーマンスレベルに導く。
本システムは非常に並列化可能であり,大規模強化学習アプリケーションの訓練が可能となる。
強化学習性能は、人間の所望の難易度と同期してうまく調整できることが示される。
論文 参考訳(メタデータ) (2022-08-04T23:53:51Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Human-guided Robot Behavior Learning: A GAN-assisted Preference-based
Reinforcement Learning Approach [2.9764834057085716]
本稿では,新しいGAN支援人間嗜好に基づく強化学習手法を提案する。
GAN(Generative Adversarial Network)を使用して、人間の嗜好を積極的に学習し、選好を割り当てる際の人間の役割を置き換える。
本手法は, 性能犠牲を伴わずに, 約99.8%の人的時間を短縮することができる。
論文 参考訳(メタデータ) (2020-10-15T01:44:06Z) - Towards Learning to Imitate from a Single Video Demonstration [11.15358253586118]
我々は,映像観察を模倣して学習できる強化学習エージェントを開発した。
我々は、Siameseリカレントニューラルネットワークアーキテクチャを使用して、モーションクリップ間の空間と時間における報酬を学習する。
シミュレーションされたヒューマノイド, 犬, ラプターエージェントを2D, 四足歩行, ヒューマノイドを3Dで示す。
論文 参考訳(メタデータ) (2019-01-22T06:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。