論文の概要: Tracking the Race Between Deep Reinforcement Learning and Imitation
Learning -- Extended Version
- arxiv url: http://arxiv.org/abs/2008.00766v1
- Date: Mon, 3 Aug 2020 10:31:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 05:48:05.878865
- Title: Tracking the Race Between Deep Reinforcement Learning and Imitation
Learning -- Extended Version
- Title(参考訳): 深層強化学習と模倣学習の競合を追跡する -- 拡張バージョン
- Authors: Timo P. Gros and Daniel H\"oller and J\"org Hoffmann and Verena Wolf
- Abstract要約: 我々は、強化学習領域であるRacetrackからベンチマーク計画問題を考える。
本研究では,深い教師付き学習,特に模倣学習のパフォーマンスを,レーストラックモデルの強化学習と比較する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning-based approaches for solving large sequential decision making
problems have become popular in recent years. The resulting agents perform
differently and their characteristics depend on those of the underlying
learning approach. Here, we consider a benchmark planning problem from the
reinforcement learning domain, the Racetrack, to investigate the properties of
agents derived from different deep (reinforcement) learning approaches. We
compare the performance of deep supervised learning, in particular imitation
learning, to reinforcement learning for the Racetrack model. We find that
imitation learning yields agents that follow more risky paths. In contrast, the
decisions of deep reinforcement learning are more foresighted, i.e., avoid
states in which fatal decisions are more likely. Our evaluations show that for
this sequential decision making problem, deep reinforcement learning performs
best in many aspects even though for imitation learning optimal decisions are
considered.
- Abstract(参考訳): 近年,大規模意思決定問題に対する学習ベースのアプローチが普及している。
得られたエージェントは異なる動作を行い、その特性は基礎となる学習手法に依存する。
本稿では,強化学習領域であるレーストラックのベンチマーク計画問題を検討し,異なる深層学習アプローチから導出されるエージェントの特性について検討する。
本研究では,深い教師付き学習,特に模倣学習のパフォーマンスを,レーストラックモデルの強化学習と比較する。
模倣学習はよりリスクの高い道をたどるエージェントを生み出す。
対照的に、深層強化学習の決定はより先見性があり、致命的な決定がより起こりやすい状態を避ける。
この逐次的意思決定問題では, 模倣学習の最適判断が検討されているにもかかわらず, 深層強化学習が多くの面で最善であることを示す。
関連論文リスト
- Maneuver Decision-Making Through Proximal Policy Optimization And Monte
Carlo Tree Search [0.0]
真面目な意思決定はマルコフ決定過程と見なすことができ、強化学習によって対処することができる。
エージェントはトレーニングの初期段階でランダムなアクションを使用するため、報酬を得るのが難しく、効果的な意思決定方法を学ぶのが難しい。
近似ポリシー最適化とモンテカルロ木探索に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-08-28T14:48:49Z) - Causal Reinforcement Learning: A Survey [57.368108154871]
強化学習は、不確実性の下でのシーケンシャルな決定問題の解決に不可欠なパラダイムである。
主な障害の1つは、強化学習エージェントが世界に対する根本的な理解を欠いていることである。
因果性は、体系的な方法で知識を形式化できるという点で顕著な利点がある。
論文 参考訳(メタデータ) (2023-07-04T03:00:43Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Where Did You Learn That From? Surprising Effectiveness of Membership
Inference Attacks Against Temporally Correlated Data in Deep Reinforcement
Learning [114.9857000195174]
深い強化学習を産業的に広く採用する上での大きな課題は、プライバシー侵害の潜在的な脆弱性である。
本稿では, 深層強化学習アルゴリズムの脆弱性を検証し, メンバーシップ推論攻撃に適応する対戦型攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-08T23:44:57Z) - Improving Human Sequential Decision-Making with Reinforcement Learning [29.334511328067777]
トレースデータから"ベストプラクティス"を抽出できる新しい機械学習アルゴリズムを設計する。
我々のアルゴリズムは、労働者の行動と最適な政策によって取られた行動のギャップを最もうまく埋めるヒントを選択する。
実験の結果,提案アルゴリズムが生成したチップは人体の性能を著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-08-19T02:57:58Z) - Exploring Bayesian Deep Learning for Urgent Instructor Intervention Need
in MOOC Forums [58.221459787471254]
大規模なオープンオンラインコース(MOOC)は、その柔軟性のおかげで、eラーニングの一般的な選択肢となっている。
多くの学習者とその多様な背景から、リアルタイムサポートの提供は課税されている。
MOOCインストラクターの大量の投稿と高い作業負荷により、インストラクターが介入を必要とするすべての学習者を識別できる可能性は低いです。
本稿では,モンテカルロドロップアウトと変分推論という2つの手法を用いて,学習者によるテキスト投稿のベイジアン深層学習を初めて検討する。
論文 参考訳(メタデータ) (2021-04-26T15:12:13Z) - Transfer Learning in Deep Reinforcement Learning: A Survey [64.36174156782333]
強化学習は、シーケンシャルな意思決定問題を解決するための学習パラダイムである。
近年、ディープニューラルネットワークの急速な発展により、強化学習の顕著な進歩が見られた。
転校学習は 強化学習が直面する様々な課題に 対処するために生まれました
論文 参考訳(メタデータ) (2020-09-16T18:38:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。