論文の概要: Randomized Ensembled Double Q-Learning: Learning Fast Without a Model
- arxiv url: http://arxiv.org/abs/2101.05982v2
- Date: Thu, 18 Mar 2021 03:42:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-28 11:26:12.790907
- Title: Randomized Ensembled Double Q-Learning: Learning Fast Without a Model
- Title(参考訳): ランダム化アンサンブルダブルq-learning:モデルなしで素早く学習する
- Authors: Xinyue Chen, Che Wang, Zijian Zhou, Keith Ross
- Abstract要約: 簡単なモデルなしアルゴリズムRandomized Ensembled Double Q-Learning (REDQ)を導入する。
REDQのパフォーマンスは、MuJoCoベンチマークの最先端のモデルベースのアルゴリズムと同じくらい優れていることを示しています。
- 参考スコア(独自算出の注目度): 8.04816643418952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Using a high Update-To-Data (UTD) ratio, model-based methods have recently
achieved much higher sample efficiency than previous model-free methods for
continuous-action DRL benchmarks. In this paper, we introduce a simple
model-free algorithm, Randomized Ensembled Double Q-Learning (REDQ), and show
that its performance is just as good as, if not better than, a state-of-the-art
model-based algorithm for the MuJoCo benchmark. Moreover, REDQ can achieve this
performance using fewer parameters than the model-based method, and with less
wall-clock run time. REDQ has three carefully integrated ingredients which
allow it to achieve its high performance: (i) a UTD ratio >> 1; (ii) an
ensemble of Q functions; (iii) in-target minimization across a random subset of
Q functions from the ensemble. Through carefully designed experiments, we
provide a detailed analysis of REDQ and related model-free algorithms. To our
knowledge, REDQ is the first successful model-free DRL algorithm for
continuous-action spaces using a UTD ratio >> 1.
- Abstract(参考訳): アップデート・トゥ・データ(UTD)比の高いモデルベース手法は,最近,従来の連続動作DRLベンチマークのモデルフリー手法よりもはるかに高いサンプリング効率を実現している。
本稿では,単純なモデルフリーアルゴリズムであるRandomized Ensembled Double Q-Learning (REDQ)を導入し,その性能が MuJoCo ベンチマークの最先端モデルベースアルゴリズムと同等であることを示す。
さらに、REDQはこの性能をモデルベースの手法よりも少ないパラメータで実現でき、ウォールタイムのランタイムも少ない。
i) UTD比 > 1; (ii) Q 関数のアンサンブル; (iii) Q 関数のランダムな部分集合に対するターゲット内最小化。
慎重に設計した実験を通して、REDQと関連するモデルフリーアルゴリズムの詳細な分析を行う。
我々の知る限り、REDQ は UTD 比 > 1 を用いた連続作用空間に対する最初のモデルフリーDRLアルゴリズムである。
関連論文リスト
- Model-Free Algorithm with Improved Sample Efficiency for Zero-Sum Markov
Games [71.0315408565146]
モデルフリーのステージベースQ-ラーニングアルゴリズムはモデルベースアルゴリズムと同じ$H$依存の最適性を享受できることを示す。
本アルゴリズムは,楽観的値関数と悲観的値関数のペアとして参照値関数を更新するキーとなる新しい設計を特徴とする。
論文 参考訳(メタデータ) (2023-08-17T08:34:58Z) - Exploiting the Potential of Seq2Seq Models as Robust Few-Shot Learners [6.455239780528817]
この結果から,Seq2seqモデルは多種多様なアプリケーションに対して非常に効果的であることを示す。
本稿では,セq2seqモデルにおける文脈内学習能力をより効果的に活用する2つの手法を提案する。
論文 参考訳(メタデータ) (2023-07-27T13:37:06Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - Boosting Low-Data Instance Segmentation by Unsupervised Pre-training
with Saliency Prompt [103.58323875748427]
この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。
近年のPrompting技術の成功に触発されて,QEISモデルを強化した新しい事前学習手法を導入する。
実験結果から,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-02-02T15:49:03Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - Aggressive Q-Learning with Ensembles: Achieving Both High Sample
Efficiency and High Asymptotic Performance [12.871109549160389]
本稿では、REDQのサンプル効率とTQCの性能を改善する新しいモデルフリーアルゴリズム、AQEを提案する。
AQEは非常に単純で、批評家の分布表現もターゲットのランダム化も必要としない。
論文 参考訳(メタデータ) (2021-11-17T14:48:52Z) - Dropout Q-Functions for Doubly Efficient Reinforcement Learning [12.267045729018653]
本稿では,Dr.Qという計算効率向上手法を提案する。
Dr.Qは、ドロップアウトQ関数の小さなアンサンブルを使用するREDQの変種である。
REDQと同等のサンプル効率、REDQよりはるかに優れた計算効率、SACと同等の計算効率を実現した。
論文 参考訳(メタデータ) (2021-10-05T13:28:11Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Abstractive Summarization with Combination of Pre-trained
Sequence-to-Sequence and Saliency Models [11.420640383826656]
本稿では,テキストの重要部分と事前学習したSeq-to-seqモデルとの相性モデルの有効性について検討する。
組み合わせモデルは、CNN/DMとXSumの両方のデータセット上で、単純な微調整のSeq-to-seqモデルよりも優れていた。
論文 参考訳(メタデータ) (2020-03-29T14:00:25Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。