論文の概要: Dropout Q-Functions for Doubly Efficient Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2110.02034v1
- Date: Tue, 5 Oct 2021 13:28:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 19:16:42.550295
- Title: Dropout Q-Functions for Doubly Efficient Reinforcement Learning
- Title(参考訳): 2倍効率強化学習のためのドロップアウトq関数
- Authors: Takuya Hiraoka, Takahisa Imagawa, Taisei Hashimoto, Takashi Onishi,
Yoshimasa Tsuruoka
- Abstract要約: 本稿では,Dr.Qという計算効率向上手法を提案する。
Dr.Qは、ドロップアウトQ関数の小さなアンサンブルを使用するREDQの変種である。
REDQと同等のサンプル効率、REDQよりはるかに優れた計算効率、SACと同等の計算効率を実現した。
- 参考スコア(独自算出の注目度): 12.267045729018653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Randomized ensemble double Q-learning (REDQ) has recently achieved
state-of-the-art sample efficiency on continuous-action reinforcement learning
benchmarks. This superior sample efficiency is possible by using a large
Q-function ensemble. However, REDQ is much less computationally efficient than
non-ensemble counterparts such as Soft Actor-Critic (SAC). To make REDQ more
computationally efficient, we propose a method of improving computational
efficiency called Dr.Q, which is a variant of REDQ that uses a small ensemble
of dropout Q-functions. Our dropout Q-functions are simple Q-functions equipped
with dropout connection and layer normalization. Despite its simplicity of
implementation, our experimental results indicate that Dr.Q is doubly (sample
and computationally) efficient. It achieved comparable sample efficiency with
REDQ and much better computational efficiency than REDQ and comparable
computational efficiency with that of SAC.
- Abstract(参考訳): ランダム化アンサンブル double q-learning (redq) は最近、連続アクション強化学習ベンチマークで最先端のサンプル効率を達成している。
この優れたサンプル効率は、大きなq関数アンサンブルを使用することで実現できる。
しかし、REDQはSoft Actor-Critic (SAC)のような非アンサンブルの手法よりも計算効率が低い。
REDQ の計算効率を向上するため,Dr.Q と呼ばれる小型のドロップアウト Q-関数を用いた REDQ の変種である計算効率の向上手法を提案する。
我々のドロップアウトQ関数は、ドロップアウト接続と層正規化を備えた単純なQ関数である。
実装の単純さにもかかわらず、我々の実験結果はDr.Qが2倍(サンプルで計算的に)効率的であることを示している。
REDQと同等のサンプル効率、REDQよりはるかに優れた計算効率、SACと同等の計算効率を実現した。
関連論文リスト
- Smart Sampling: Self-Attention and Bootstrapping for Improved Ensembled Q-Learning [0.6963971634605796]
アンサンブルQ学習のサンプル効率向上を目的とした新しい手法を提案する。
提案手法は,組立Qネットワークにマルチヘッド自己アテンションを組み込むとともに,組立Qネットワークが取り入れた状態-動作ペアをブートストラップする。
論文 参考訳(メタデータ) (2024-05-14T00:57:02Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - Quantum circuit architecture search on a superconducting processor [56.04169357427682]
変分量子アルゴリズム(VQA)は、ファイナンス、機械学習、化学といった様々な分野において、証明可能な計算上の優位性を得るための強力な証拠を示している。
しかし、現代のVQAで利用されるアンザッツは、表現性と訓練性の間のトレードオフのバランスをとることができない。
8量子ビット超伝導量子プロセッサ上でVQAを強化するために,効率的な自動アンサッツ設計技術を適用した最初の実証実験を実証する。
論文 参考訳(メタデータ) (2022-01-04T01:53:42Z) - Aggressive Q-Learning with Ensembles: Achieving Both High Sample
Efficiency and High Asymptotic Performance [12.871109549160389]
本稿では、REDQのサンプル効率とTQCの性能を改善する新しいモデルフリーアルゴリズム、AQEを提案する。
AQEは非常に単純で、批評家の分布表現もターゲットのランダム化も必要としない。
論文 参考訳(メタデータ) (2021-11-17T14:48:52Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Randomized Ensembled Double Q-Learning: Learning Fast Without a Model [8.04816643418952]
簡単なモデルなしアルゴリズムRandomized Ensembled Double Q-Learning (REDQ)を導入する。
REDQのパフォーマンスは、MuJoCoベンチマークの最先端のモデルベースのアルゴリズムと同じくらい優れていることを示しています。
論文 参考訳(メタデータ) (2021-01-15T06:25:58Z) - Self-correcting Q-Learning [14.178899938667161]
自己修正アルゴリズム」という形でバイアスに対処する新しい手法を導入する。
この戦略をQラーニングに適用すると、自己修正Qラーニングが発生する。
理論的には,このアルゴリズムはQ-ラーニングと同等の収束保証を享受できるが,精度は高い。
論文 参考訳(メタデータ) (2020-12-02T11:36:24Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - CrossQ: Batch Normalization in Deep Reinforcement Learning for Greater Sample Efficiency and Simplicity [34.36803740112609]
CrossQはサンプル効率の点で現在の最先端の手法と一致または超えている。
これはREDQやDroQに比べて計算コストを大幅に削減する。
SAC上にわずか数行のコードを必要とするため、実装が容易である。
論文 参考訳(メタデータ) (2019-02-14T21:05:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。