論文の概要: Randomized Ensembled Double Q-Learning: Learning Fast Without a Model
- arxiv url: http://arxiv.org/abs/2101.05982v2
- Date: Thu, 18 Mar 2021 03:42:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-28 11:26:12.790907
- Title: Randomized Ensembled Double Q-Learning: Learning Fast Without a Model
- Title(参考訳): ランダム化アンサンブルダブルq-learning:モデルなしで素早く学習する
- Authors: Xinyue Chen, Che Wang, Zijian Zhou, Keith Ross
- Abstract要約: 簡単なモデルなしアルゴリズムRandomized Ensembled Double Q-Learning (REDQ)を導入する。
REDQのパフォーマンスは、MuJoCoベンチマークの最先端のモデルベースのアルゴリズムと同じくらい優れていることを示しています。
- 参考スコア(独自算出の注目度): 8.04816643418952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Using a high Update-To-Data (UTD) ratio, model-based methods have recently
achieved much higher sample efficiency than previous model-free methods for
continuous-action DRL benchmarks. In this paper, we introduce a simple
model-free algorithm, Randomized Ensembled Double Q-Learning (REDQ), and show
that its performance is just as good as, if not better than, a state-of-the-art
model-based algorithm for the MuJoCo benchmark. Moreover, REDQ can achieve this
performance using fewer parameters than the model-based method, and with less
wall-clock run time. REDQ has three carefully integrated ingredients which
allow it to achieve its high performance: (i) a UTD ratio >> 1; (ii) an
ensemble of Q functions; (iii) in-target minimization across a random subset of
Q functions from the ensemble. Through carefully designed experiments, we
provide a detailed analysis of REDQ and related model-free algorithms. To our
knowledge, REDQ is the first successful model-free DRL algorithm for
continuous-action spaces using a UTD ratio >> 1.
- Abstract(参考訳): アップデート・トゥ・データ(UTD)比の高いモデルベース手法は,最近,従来の連続動作DRLベンチマークのモデルフリー手法よりもはるかに高いサンプリング効率を実現している。
本稿では,単純なモデルフリーアルゴリズムであるRandomized Ensembled Double Q-Learning (REDQ)を導入し,その性能が MuJoCo ベンチマークの最先端モデルベースアルゴリズムと同等であることを示す。
さらに、REDQはこの性能をモデルベースの手法よりも少ないパラメータで実現でき、ウォールタイムのランタイムも少ない。
i) UTD比 > 1; (ii) Q 関数のアンサンブル; (iii) Q 関数のランダムな部分集合に対するターゲット内最小化。
慎重に設計した実験を通して、REDQと関連するモデルフリーアルゴリズムの詳細な分析を行う。
我々の知る限り、REDQ は UTD 比 > 1 を用いた連続作用空間に対する最初のモデルフリーDRLアルゴリズムである。
関連論文リスト
- Supervised Score-Based Modeling by Gradient Boosting [49.556736252628745]
本稿では,スコアマッチングを組み合わせた勾配向上アルゴリズムとして,SSM(Supervised Score-based Model)を提案する。
推測時間と予測精度のバランスをとるため,SSMの学習とサンプリングに関する理論的解析を行った。
我々のモデルは、精度と推測時間の両方で既存のモデルより優れています。
論文 参考訳(メタデータ) (2024-11-02T07:06:53Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Variance-Reduced Cascade Q-learning: Algorithms and Sample Complexity [3.4376560669160394]
Variance-Reduced Cascade Q-learning (VRCQ)と呼ばれる新しいモデルなしアルゴリズムを導入し分析する。
VRCQは、既存のモデルフリー近似型アルゴリズムと比較して、$ell_infty$-normにおいて優れた保証を提供する。
論文 参考訳(メタデータ) (2024-08-13T00:34:33Z) - Smart Sampling: Self-Attention and Bootstrapping for Improved Ensembled Q-Learning [0.6963971634605796]
アンサンブルQ学習のサンプル効率向上を目的とした新しい手法を提案する。
提案手法は,組立Qネットワークにマルチヘッド自己アテンションを組み込むとともに,組立Qネットワークが取り入れた状態-動作ペアをブートストラップする。
論文 参考訳(メタデータ) (2024-05-14T00:57:02Z) - Exploiting the Potential of Seq2Seq Models as Robust Few-Shot Learners [8.43854206194162]
この結果から,Seq2seqモデルは多種多様なアプリケーションに対して非常に効果的であることを示す。
本稿では,セq2seqモデルにおける文脈内学習能力をより効果的に活用する2つの手法を提案する。
論文 参考訳(メタデータ) (2023-07-27T13:37:06Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - Boosting Low-Data Instance Segmentation by Unsupervised Pre-training
with Saliency Prompt [103.58323875748427]
この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。
近年のPrompting技術の成功に触発されて,QEISモデルを強化した新しい事前学習手法を導入する。
実験結果から,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-02-02T15:49:03Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - Aggressive Q-Learning with Ensembles: Achieving Both High Sample
Efficiency and High Asymptotic Performance [12.871109549160389]
本稿では、REDQのサンプル効率とTQCの性能を改善する新しいモデルフリーアルゴリズム、AQEを提案する。
AQEは非常に単純で、批評家の分布表現もターゲットのランダム化も必要としない。
論文 参考訳(メタデータ) (2021-11-17T14:48:52Z) - Dropout Q-Functions for Doubly Efficient Reinforcement Learning [12.267045729018653]
本稿では,Dr.Qという計算効率向上手法を提案する。
Dr.Qは、ドロップアウトQ関数の小さなアンサンブルを使用するREDQの変種である。
REDQと同等のサンプル効率、REDQよりはるかに優れた計算効率、SACと同等の計算効率を実現した。
論文 参考訳(メタデータ) (2021-10-05T13:28:11Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。