論文の概要: Exploring More When It Needs in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2109.13477v1
- Date: Tue, 28 Sep 2021 04:29:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-29 14:57:52.849641
- Title: Exploring More When It Needs in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習に必要な場合の探索
- Authors: Youtian Guo and Qi Gao
- Abstract要約: エージェントが必要とするときの騒音付加(AN2N)を探求する深層強化学習における政策のメカニズムを提案する。
エージェントが正常に動作していない過去の状態を評価するために累積報酬を使用し、コサイン距離を用いて現在の状態をさらに調査する必要があるかどうかを測定する。
半チェタ、ホッパー、スイマーなどの連続制御タスクに適用し、性能と収束速度を大幅に向上させる。
- 参考スコア(独自算出の注目度): 3.442899929543427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a exploration mechanism of policy in Deep Reinforcement Learning,
which is exploring more when agent needs, called Add Noise to Noise (AN2N). The
core idea is: when the Deep Reinforcement Learning agent is in a state of poor
performance in history, it needs to explore more. So we use cumulative rewards
to evaluate which past states the agents have not performed well, and use
cosine distance to measure whether the current state needs to be explored more.
This method shows that the exploration mechanism of the agent's policy is
conducive to efficient exploration. We combining the proposed exploration
mechanism AN2N with Deep Deterministic Policy Gradient (DDPG), Soft
Actor-Critic (SAC) algorithms, and apply it to the field of continuous control
tasks, such as halfCheetah, Hopper, and Swimmer, achieving considerable
improvement in performance and convergence speed.
- Abstract(参考訳): 本稿では,エージェントが要求するノイズを探索する深層強化学習におけるポリシの探索機構について,an2n(add noise to noise)を提案する。
根底にある考え方は、Deep Reinforcement Learningエージェントが歴史上パフォーマンスの悪い状態にある場合、さらに調査する必要があります。
そこで我々は累積報酬を用いて、エージェントが正常に動作していない過去の状態を評価するとともに、コサイン距離を用いて現在の状態をさらに調査する必要があるかどうかを測定する。
この方法は,エージェントの政策の探索機構が効率的な探索に寄与することを示す。
本稿では,提案した探索機構AN2NとDeep Deterministic Policy Gradient(DDPG),Soft Actor-Critic(SAC)アルゴリズムを組み合わせることで,半Cheetah,Hopper,Swimmerなどの連続制御タスクに適用し,性能と収束速度の大幅な向上を実現した。
関連論文リスト
- MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization [91.80034860399677]
強化学習アルゴリズムは、現在のベスト戦略の活用と、より高い報酬につながる可能性のある新しいオプションの探索のバランスを図ることを目的としている。
我々は本質的な探索と外生的な探索のバランスをとるためのフレームワークMaxInfoRLを紹介する。
提案手法は,マルチアームバンディットの簡易な設定において,サブリニアな後悔を実現するものである。
論文 参考訳(メタデータ) (2024-12-16T18:59:53Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Entropy Augmented Reinforcement Learning [0.0]
我々は,最適下から脱出する能力を探求し,強化するために,移動型マルコフ決定プロセス(MDP)を提案する。
実験では,MuJoCoベンチマークタスクにおけるTRPOとPPOの強化実験を行い,エージェントがより高い報酬領域に向けてハートアップされていることを示す。
論文 参考訳(メタデータ) (2022-08-19T13:09:32Z) - SEREN: Knowing When to Explore and When to Exploit [14.188362393915432]
本稿では,SEREN(Sive Reinforcement Exploration Network)を紹介する。
インパルス制御(英語版)として知られる政策を用いて、スイッチャーは探索政策に切り替える最良の状態のセットを決定することができる。
我々は、SERENが急速に収束し、純粋な搾取に向けた自然なスケジュールを導き出すことを証明した。
論文 参考訳(メタデータ) (2022-05-30T12:44:56Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - Exploration and Incentives in Reinforcement Learning [107.42240386544633]
各エージェントが同一(ただし未知)のMDPに直面する複雑な探索問題を考察する。
エージェントはポリシーの選択を制御するが、アルゴリズムは推奨事項のみを発行できる。
MDPのすべての到達可能な状態を探索するアルゴリズムを設計します。
論文 参考訳(メタデータ) (2021-02-28T00:15:53Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。