論文の概要: Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network
- arxiv url: http://arxiv.org/abs/2009.14297v1
- Date: Tue, 29 Sep 2020 20:40:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 06:28:39.321517
- Title: Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network
- Title(参考訳): 深層qネットワークにおけるヒューリスティック測度に基づく崩壊探査の再編成
- Authors: Xing Wang, Alexander Vinel
- Abstract要約: 本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
- 参考スコア(独自算出の注目度): 82.20059754270302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing exploration strategies in reinforcement learning (RL) often either
ignore the history or feedback of search, or are complicated to implement.
There is also a very limited literature showing their effectiveness over
diverse domains. We propose an algorithm based on the idea of reannealing, that
aims at encouraging exploration only when it is needed, for example, when the
algorithm detects that the agent is stuck in a local optimum. The approach is
simple to implement. We perform an illustrative case study showing that it has
potential to both accelerate training and obtain a better policy.
- Abstract(参考訳): 強化学習(RL)における既存の探索戦略は、しばしば検索の歴史やフィードバックを無視したり、実装が複雑になる。
多様な領域においてその効果を示す、非常に限られた文献もある。
例えば,アルゴリズムがエージェントが局所的な最適状態にあることを検知した場合にのみ探索を奨励することを目的とした,再アニーリングの考え方に基づくアルゴリズムを提案する。
このアプローチの実装は簡単です。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的な事例研究を行う。
関連論文リスト
- On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - Inapplicable Actions Learning for Knowledge Transfer in Reinforcement
Learning [3.194414753332705]
学習不能な動作はRLアルゴリズムのサンプル効率を大幅に向上させることを示す。
得られた知識の伝達性のおかげで、学習プロセスをより効率的にするために、他のタスクやドメインで再利用することができる。
論文 参考訳(メタデータ) (2022-11-28T17:45:39Z) - Boosting Exploration in Actor-Critic Algorithms by Incentivizing
Plausible Novel States [9.210923191081864]
Actor-critic (AC)アルゴリズムは、モデルなしの深層強化学習アルゴリズムのクラスである。
本稿では,国家の新規性の測定に基づく本質的な報酬による探索を促進する新しい手法を提案する。
可塑性新規状態のインセンティブ付き探索により、ACアルゴリズムはサンプル効率を向上し、従って訓練性能を向上させることができる。
論文 参考訳(メタデータ) (2022-10-01T07:07:11Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Exploring More When It Needs in Deep Reinforcement Learning [3.442899929543427]
エージェントが必要とするときの騒音付加(AN2N)を探求する深層強化学習における政策のメカニズムを提案する。
エージェントが正常に動作していない過去の状態を評価するために累積報酬を使用し、コサイン距離を用いて現在の状態をさらに調査する必要があるかどうかを測定する。
半チェタ、ホッパー、スイマーなどの連続制御タスクに適用し、性能と収束速度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-09-28T04:29:38Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Exploration and Incentives in Reinforcement Learning [107.42240386544633]
各エージェントが同一(ただし未知)のMDPに直面する複雑な探索問題を考察する。
エージェントはポリシーの選択を制御するが、アルゴリズムは推奨事項のみを発行できる。
MDPのすべての到達可能な状態を探索するアルゴリズムを設計します。
論文 参考訳(メタデータ) (2021-02-28T00:15:53Z) - Policy Augmentation: An Exploration Strategy for Faster Convergence of
Deep Reinforcement Learning Algorithms [0.0]
本稿では,政策拡張(Policy Augmentation)と呼ばれる革命的アルゴリズムを紹介する。
ポリシー強化は、新しく開発された帰納的行列補完法に基づいている。
提案アルゴリズムは、探索されていない状態-作用ペアの値を増大させ、エージェントが初期エピソードにいる間、エージェントが高値のリターンをもたらすアクションを行うのを助ける。
論文 参考訳(メタデータ) (2021-02-10T03:51:45Z) - Provably Efficient Exploration for Reinforcement Learning Using
Unsupervised Learning [96.78504087416654]
強化学習(RL)問題における効率的な探索に教師なし学習を用い,本パラダイムが有効であるかどうかを考察する。
本稿では,教師なし学習アルゴリズムと非線形表RLアルゴリズムという,2つのコンポーネント上に構築された汎用的なアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-15T19:23:59Z) - Reinforcement Learning with Probabilistically Complete Exploration [27.785017885906313]
素早いランダム探索型強化学習(R3L)を提案する。
探索問題を探索問題として定式化し、初期解を見つけるために広く利用されている計画アルゴリズムを活用する。
本手法を実験的に実証し,少数の探査サンプルを必要とせず,性能が向上した。
論文 参考訳(メタデータ) (2020-01-20T02:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。