論文の概要: Entropy-Aware Model Initialization for Effective Exploration in Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2108.10533v1
- Date: Tue, 24 Aug 2021 05:46:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-25 14:26:53.656830
- Title: Entropy-Aware Model Initialization for Effective Exploration in Deep
Reinforcement Learning
- Title(参考訳): 深層強化学習における効果的な探索のためのエントロピー・アウェアモデル初期化
- Authors: Sooyoung Jang and Hyung-Il Kim
- Abstract要約: 本研究では,初期エントロピーの影響について検討する。
この調査にインスパイアされた我々は、効果的な探索のためのシンプルながら強力な学習戦略を考案した。
提案手法は,学習失敗を著しく低減し,実験による性能,安定性,学習速度を向上することを示す。
- 参考スコア(独自算出の注目度): 4.008558053828603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Encouraging exploration is a critical issue in deep reinforcement learning.
We investigate the effect of initial entropy that significantly influences the
exploration, especially at the earlier stage. Our main observations are as
follows: 1) low initial entropy increases the probability of learning failure,
and 2) this initial entropy is biased towards a low value that inhibits
exploration. Inspired by the investigations, we devise entropy-aware model
initialization, a simple yet powerful learning strategy for effective
exploration. We show that the devised learning strategy significantly reduces
learning failures and enhances performance, stability, and learning speed
through experiments.
- Abstract(参考訳): 深層学習における探索の促進は重要な問題である。
初期エントロピーの影響について検討し,特に初期エントロピーの影響について検討した。
1) 初期エントロピーの低さは学習失敗の確率を増加させ, 2) この初期エントロピーは探索を阻害する低い値に向かって偏っている。
本研究から着想を得たエントロピー対応モデル初期化は,効率的な探索のためのシンプルかつ強力な学習戦略である。
提案する学習戦略は,学習失敗を著しく軽減し,実験によるパフォーマンス,安定性,学習速度を向上させる。
関連論文リスト
- Reducing Action Space for Deep Reinforcement Learning via Causal Effect Estimation [15.684669299728743]
本研究では,行動の因果効果を推定し,探索効率を向上させる手法を提案する。
まず、環境の事前知識として機能するために、逆ダイナミクスモデルを事前訓練する。
各ステップでアクション空間全体にわたってアクションを分類し、各アクションの因果効果を推定し、冗長なアクションを抑制する。
論文 参考訳(メタデータ) (2025-01-24T14:47:33Z) - Spurious Forgetting in Continual Learning of Language Models [20.0936011355535]
大規模言語モデル(LLM)の最近の進歩は、継続学習において複雑な現象を呈している。
大規模な訓練にもかかわらず、モデルは大幅な性能低下を経験する。
本研究では,このような性能低下が,真の知識喪失よりもタスクアライメントの低下を反映していることが示唆された。
論文 参考訳(メタデータ) (2025-01-23T08:09:54Z) - Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective [77.94874338927492]
OpenAIは、o1の背後にある主要な技術は強化学習であると主張している。
本稿では、強化学習の観点から、o1を達成するためのロードマップを分析する。
論文 参考訳(メタデータ) (2024-12-18T18:24:47Z) - Fostering Intrinsic Motivation in Reinforcement Learning with Pretrained Foundation Models [8.255197802529118]
CLIPのような最近の基盤モデルの台頭は、事前訓練されたセマンティックにリッチな埋め込みを活用する機会を提供する。
導入モジュールは、完全な状態情報を有効に活用することができ、サンプル効率を大幅に向上させることができる。
基礎モデルによって提供される埋め込みは、トレーニング中にエージェントが構築したものよりも、時として優れていることを示す。
論文 参考訳(メタデータ) (2024-10-09T20:05:45Z) - Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - Deep Intrinsically Motivated Exploration in Continuous Control [0.0]
連続的なシステムでは、ネットワークのパラメータや選択されたアクションがランダムノイズによって乱されるような、間接的でない戦略によって探索が行われることが多い。
我々は、動物モチベーションシステムに関する既存の理論を強化学習パラダイムに適応させ、新しい探究戦略を導入する。
我々のフレームワークは、より大きく多様な状態空間に拡張し、ベースラインを劇的に改善し、間接的でない戦略を大幅に上回る。
論文 参考訳(メタデータ) (2022-10-01T14:52:16Z) - Sample-Efficient Reinforcement Learning in the Presence of Exogenous
Information [77.19830787312743]
実世界の強化学習アプリケーションでは、学習者の観察空間は、その課題に関する関連情報と無関係情報の両方でユビキタスに高次元である。
本稿では,強化学習のための新しい問題設定法であるExogenous Decision Process (ExoMDP)を導入する。
内因性成分の大きさのサンプル複雑度で準最適ポリシーを学習するアルゴリズムであるExoRLを提案する。
論文 参考訳(メタデータ) (2022-06-09T05:19:32Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - On Learning the Geodesic Path for Incremental Learning [38.222736913855115]
ニューラルネットワークは、新しい知識を獲得する際に過去の知識を忘れる現象である壊滅的な忘れの問題にひどく苦しんでいます。
破滅的な忘れを克服することは「漸進的学習」の過程をエミュレートする上で重要なことである
増分学習のための最先端の技術は、壊滅的な忘れ物を防ぐための知識蒸留を利用します。
論文 参考訳(メタデータ) (2021-04-17T15:26:34Z) - Self-supervised Knowledge Distillation for Few-shot Learning [123.10294801296926]
少数のサンプルだけで秩序分布から素早く学習できるため、ショットラーニングは有望な学習パラダイムである。
数ショットの学習タスクにおいて,深層ニューラルネットワークの表現能力を向上させるための簡単な手法を提案する。
実験により、第一段階においても、自己超越は現在の最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2020-06-17T11:27:00Z) - Understanding the Role of Training Regimes in Continual Learning [51.32945003239048]
破滅的な忘れは、ニューラルネットワークのトレーニングに影響を与え、複数のタスクを逐次学習する能力を制限する。
本研究では,タスクの局所的なミニマを拡大するトレーニング体制の形成に及ぼすドロップアウト,学習速度の低下,バッチサイズの影響について検討した。
論文 参考訳(メタデータ) (2020-06-12T06:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。