論文の概要: Mixing Human Demonstrations with Self-Exploration in Experience Replay
for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2107.06840v1
- Date: Wed, 14 Jul 2021 16:55:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-15 14:20:33.445761
- Title: Mixing Human Demonstrations with Self-Exploration in Experience Replay
for Deep Reinforcement Learning
- Title(参考訳): 深層強化学習のための体験リプレイにおける人間と自己爆発の混合
- Authors: Dylan Klein, Akansel Cosgun
- Abstract要約: 本稿では,Deep Reinforcement Learning におけるリプレイバッファにおける人間の実演データの利用効果について検討する。
その結果、純粋な自己探索と純粋な実演によって訓練されたエージェントは同様の成功率を示したが、純粋な実演モデルはより少ないステップ数で解に収束したことが示唆された。
- 参考スコア(独自算出の注目度): 2.8783296093434148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the effect of using human demonstration data in the replay
buffer for Deep Reinforcement Learning. We use a policy gradient method with a
modified experience replay buffer where a human demonstration experience is
sampled with a given probability. We analyze different ratios of using
demonstration data in a task where an agent attempts to reach a goal while
avoiding obstacles. Our results suggest that while the agents trained by pure
self-exploration and pure demonstration had similar success rates, the pure
demonstration model converged faster to solutions with less number of steps.
- Abstract(参考訳): 本稿では,Deep Reinforcement Learning におけるリプレイバッファにおける人間の実演データの利用効果について検討する。
本研究では,人間の実演体験を所定の確率でサンプリングするリプレイバッファを改良したポリシー勾配法を用いる。
エージェントが障害物を避けながら目標に到達しようとするタスクにおいて,実証データを使用する場合の比率を解析する。
その結果、純粋な自己探索と純粋な実演によって訓練されたエージェントは同様の成功率を示したが、純粋な実演モデルはより少ないステップ数で解に収束した。
関連論文リスト
- Inverse-RLignment: Inverse Reinforcement Learning from Demonstrations for LLM Alignment [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - Zero-shot Imitation Policy via Search in Demonstration Dataset [0.16817021284806563]
行動クローンは、ポリシーを学ぶためにデモのデータセットを使用する。
本稿では,事前学習した基礎モデルの潜在空間を用いて,実演データセットをインデックス化することを提案する。
提案手法は,マインクラフト環境において,有意義なデモンストレーションを効果的に再現し,エージェントの人間的行動を示す。
論文 参考訳(メタデータ) (2024-01-29T18:38:29Z) - Data Pruning via Moving-one-Sample-out [61.45441981346064]
我々は移動1サンプルアウト(MoSo)と呼ばれる新しいデータ処理手法を提案する。
MoSoは、トレーニングセットから最も分かりにくいサンプルを特定し、削除することを目的としている。
実験結果から,MoSoは高プルーニング比で高い性能劣化を効果的に緩和することが示された。
論文 参考訳(メタデータ) (2023-10-23T08:00:03Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Robust Imitation of a Few Demonstrations with a Backwards Model [3.8530020696501794]
専門家によるデモンストレーションの行動クローニングは、強化学習よりもよりサンプル効率のよい学習ポリシーを高速化することができる。
実験の周囲のアトラクションの領域を拡大することで、エージェントがオフコースを走行した場合に、実証軌道に戻す方法を学ぶことができるようにすることで、この問題に対処する。
最適あるいは準最適の実証では、学習されたポリシーは、偏差に対して最適かつ堅牢であり、より広いアトラクション領域を持つ。
論文 参考訳(メタデータ) (2022-10-17T18:02:19Z) - Evaluating the Effectiveness of Corrective Demonstrations and a Low-Cost
Sensor for Dexterous Manipulation [0.5669790037378094]
模倣学習は、ロボットが巧妙な操作能力を獲得するのを助ける、有望なアプローチである。
このような追加デモンストレーションの特性と性能への影響について検討する。
本稿では、LeapMotionのような安価な視覚ベースのセンサーを用いて、デモの提供コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2022-04-15T19:55:46Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Sampling Attacks: Amplification of Membership Inference Attacks by
Repeated Queries [74.59376038272661]
本手法は,他の標準メンバーシップ相手と異なり,被害者モデルのスコアにアクセスできないような厳格な制限の下で動作可能な,新しいメンバーシップ推論手法であるサンプリングアタックを導入する。
ラベルのみを公開している被害者モデルでは,攻撃のサンプリングが引き続き可能であり,攻撃者はその性能の最大100%を回復できることを示す。
防衛においては,被害者モデルのトレーニング中の勾配摂動と予測時の出力摂動の形式で差分プライバシーを選択する。
論文 参考訳(メタデータ) (2020-09-01T12:54:54Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Reinforcement Learning with Supervision from Noisy Demonstrations [38.00968774243178]
本研究では,環境と協調して対話し,専門家による実演を生かして政策を適応的に学習する新しい枠組みを提案する。
複数の人気強化学習アルゴリズムを用いた各種環境における実験結果から,提案手法はノイズの多い実演で頑健に学習可能であることが示された。
論文 参考訳(メタデータ) (2020-06-14T06:03:06Z) - Sample Efficient Reinforcement Learning through Learning from
Demonstrations in Minecraft [4.3952888284140785]
Minecraftのミニゲーム『ObtainDiamond』において、人間によるデモンストレーションによって、環境相互作用の8Mフレームしか持たないエージェントの最終的なパフォーマンスが向上することを示す。
NeurIPS MineRL Competition for Sample-Efficient Reinforcement Learningの3位にランクインした。
論文 参考訳(メタデータ) (2020-03-12T23:46:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。