論文の概要: Entropy-Aware Model Initialization for Effective Exploration in Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2108.10533v1
- Date: Tue, 24 Aug 2021 05:46:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-25 14:26:53.656830
- Title: Entropy-Aware Model Initialization for Effective Exploration in Deep
Reinforcement Learning
- Title(参考訳): 深層強化学習における効果的な探索のためのエントロピー・アウェアモデル初期化
- Authors: Sooyoung Jang and Hyung-Il Kim
- Abstract要約: 本研究では,初期エントロピーの影響について検討する。
この調査にインスパイアされた我々は、効果的な探索のためのシンプルながら強力な学習戦略を考案した。
提案手法は,学習失敗を著しく低減し,実験による性能,安定性,学習速度を向上することを示す。
- 参考スコア(独自算出の注目度): 4.008558053828603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Encouraging exploration is a critical issue in deep reinforcement learning.
We investigate the effect of initial entropy that significantly influences the
exploration, especially at the earlier stage. Our main observations are as
follows: 1) low initial entropy increases the probability of learning failure,
and 2) this initial entropy is biased towards a low value that inhibits
exploration. Inspired by the investigations, we devise entropy-aware model
initialization, a simple yet powerful learning strategy for effective
exploration. We show that the devised learning strategy significantly reduces
learning failures and enhances performance, stability, and learning speed
through experiments.
- Abstract(参考訳): 深層学習における探索の促進は重要な問題である。
初期エントロピーの影響について検討し,特に初期エントロピーの影響について検討した。
1) 初期エントロピーの低さは学習失敗の確率を増加させ, 2) この初期エントロピーは探索を阻害する低い値に向かって偏っている。
本研究から着想を得たエントロピー対応モデル初期化は,効率的な探索のためのシンプルかつ強力な学習戦略である。
提案する学習戦略は,学習失敗を著しく軽減し,実験によるパフォーマンス,安定性,学習速度を向上させる。
関連論文リスト
- Contrastive Initial State Buffer for Reinforcement Learning [25.849626996870526]
強化学習(Reinforcement Learning)では、探究と搾取のトレードオフは、限られたサンプルから効率的な学習を実現するための複雑な課題となる。
本稿では,過去の経験から状態を戦略的に選択し,エージェントを環境に初期化するContrastive Initial State Bufferの概念を紹介する。
環境に関する事前情報に頼ることなく、2つの複雑なロボットタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-09-18T13:26:40Z) - Deep Intrinsically Motivated Exploration in Continuous Control [0.0]
連続的なシステムでは、ネットワークのパラメータや選択されたアクションがランダムノイズによって乱されるような、間接的でない戦略によって探索が行われることが多い。
我々は、動物モチベーションシステムに関する既存の理論を強化学習パラダイムに適応させ、新しい探究戦略を導入する。
我々のフレームワークは、より大きく多様な状態空間に拡張し、ベースラインを劇的に改善し、間接的でない戦略を大幅に上回る。
論文 参考訳(メタデータ) (2022-10-01T14:52:16Z) - Sample-Efficient Reinforcement Learning in the Presence of Exogenous
Information [77.19830787312743]
実世界の強化学習アプリケーションでは、学習者の観察空間は、その課題に関する関連情報と無関係情報の両方でユビキタスに高次元である。
本稿では,強化学習のための新しい問題設定法であるExogenous Decision Process (ExoMDP)を導入する。
内因性成分の大きさのサンプル複雑度で準最適ポリシーを学習するアルゴリズムであるExoRLを提案する。
論文 参考訳(メタデータ) (2022-06-09T05:19:32Z) - Intrinsically-Motivated Reinforcement Learning: A Brief Introduction [0.0]
強化学習(Reinforcement Learning, RL)は、機械学習の3つの基本パラダイムの1つである。
本稿では,RLにおける探査改善の問題点を考察し,本質的な動機付け型RLを導入した。
論文 参考訳(メタデータ) (2022-03-03T12:39:58Z) - A Survey of Exploration Methods in Reinforcement Learning [64.01676570654234]
強化学習エージェントは、学習プロセスのための情報データを得るために、探索に極めて依存する。
本稿では,(逐次的)強化学習における近代的な探究手法の調査と,探索手法の分類について述べる。
論文 参考訳(メタデータ) (2021-09-01T02:36:14Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - On Learning the Geodesic Path for Incremental Learning [38.222736913855115]
ニューラルネットワークは、新しい知識を獲得する際に過去の知識を忘れる現象である壊滅的な忘れの問題にひどく苦しんでいます。
破滅的な忘れを克服することは「漸進的学習」の過程をエミュレートする上で重要なことである
増分学習のための最先端の技術は、壊滅的な忘れ物を防ぐための知識蒸留を利用します。
論文 参考訳(メタデータ) (2021-04-17T15:26:34Z) - Reinforcement Learning with Fast Stabilization in Linear Dynamical
Systems [91.43582419264763]
未知の安定化線形力学系におけるモデルベース強化学習(RL)について検討する。
本研究では,環境を効果的に探索することで,基盤システムの高速安定化を証明できるアルゴリズムを提案する。
提案アルゴリズムはエージェント環境相互作用の時間ステップで$tildemathcalO(sqrtT)$ regretを達成した。
論文 参考訳(メタデータ) (2020-07-23T23:06:40Z) - Self-supervised Knowledge Distillation for Few-shot Learning [123.10294801296926]
少数のサンプルだけで秩序分布から素早く学習できるため、ショットラーニングは有望な学習パラダイムである。
数ショットの学習タスクにおいて,深層ニューラルネットワークの表現能力を向上させるための簡単な手法を提案する。
実験により、第一段階においても、自己超越は現在の最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2020-06-17T11:27:00Z) - Understanding the Role of Training Regimes in Continual Learning [51.32945003239048]
破滅的な忘れは、ニューラルネットワークのトレーニングに影響を与え、複数のタスクを逐次学習する能力を制限する。
本研究では,タスクの局所的なミニマを拡大するトレーニング体制の形成に及ぼすドロップアウト,学習速度の低下,バッチサイズの影響について検討した。
論文 参考訳(メタデータ) (2020-06-12T06:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。