Fugu-MT 論文翻訳(概要): Randomized Ensembled Double Q-Learning: Learning Fast Without a Model

論文の概要: Randomized Ensembled Double Q-Learning: Learning Fast Without a Model

arxiv url: http://arxiv.org/abs/2101.05982v2
Date: Thu, 18 Mar 2021 03:42:07 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-28 11:26:12.790907
Title: Randomized Ensembled Double Q-Learning: Learning Fast Without a Model
Title（参考訳）: ランダム化アンサンブルダブルq-learning:モデルなしで素早く学習する
Authors: Xinyue Chen, Che Wang, Zijian Zhou, Keith Ross
Abstract要約: 簡単なモデルなしアルゴリズムRandomized Ensembled Double Q-Learning (REDQ)を導入する。 REDQのパフォーマンスは、MuJoCoベンチマークの最先端のモデルベースのアルゴリズムと同じくらい優れていることを示しています。
参考スコア（独自算出の注目度）: 8.04816643418952
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Using a high Update-To-Data (UTD) ratio, model-based methods have recently achieved much higher sample efficiency than previous model-free methods for continuous-action DRL benchmarks. In this paper, we introduce a simple model-free algorithm, Randomized Ensembled Double Q-Learning (REDQ), and show that its performance is just as good as, if not better than, a state-of-the-art model-based algorithm for the MuJoCo benchmark. Moreover, REDQ can achieve this performance using fewer parameters than the model-based method, and with less wall-clock run time. REDQ has three carefully integrated ingredients which allow it to achieve its high performance: (i) a UTD ratio >> 1; (ii) an ensemble of Q functions; (iii) in-target minimization across a random subset of Q functions from the ensemble. Through carefully designed experiments, we provide a detailed analysis of REDQ and related model-free algorithms. To our knowledge, REDQ is the first successful model-free DRL algorithm for continuous-action spaces using a UTD ratio >> 1.
Abstract（参考訳）: アップデート・トゥ・データ(UTD)比の高いモデルベース手法は,最近,従来の連続動作DRLベンチマークのモデルフリー手法よりもはるかに高いサンプリング効率を実現している。本稿では,単純なモデルフリーアルゴリズムであるRandomized Ensembled Double Q-Learning (REDQ)を導入し,その性能が MuJoCo ベンチマークの最先端モデルベースアルゴリズムと同等であることを示す。さらに、REDQはこの性能をモデルベースの手法よりも少ないパラメータで実現でき、ウォールタイムのランタイムも少ない。 i) UTD比 > 1; (ii) Q 関数のアンサンブル; (iii) Q 関数のランダムな部分集合に対するターゲット内最小化。慎重に設計した実験を通して、REDQと関連するモデルフリーアルゴリズムの詳細な分析を行う。我々の知る限り、REDQ は UTD 比 > 1 を用いた連続作用空間に対する最初のモデルフリーDRLアルゴリズムである。

関連論文リスト

Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文参考訳（メタデータ） (2025-04-04T00:41:40Z)
Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文参考訳（メタデータ） (2025-03-27T08:52:41Z)
RSQ: Learning from Important Tokens Leads to Better Quantized LLMs [65.5558181902098]
レイヤーワイド量子化は、高価なリトレーニングなしで大きなモデルを効率的に圧縮するための重要な技術である。モデルに回転を適用して外乱を緩和するRSQ(Rotate, Scale, then Quantize)を提案する。 RSQは、複数の下流タスクと3つのモデルファミリーで、ベースラインメソッドを一貫して上回っていることを実証する。
論文参考訳（メタデータ） (2025-03-03T18:46:33Z)
Supervised Score-Based Modeling by Gradient Boosting [49.556736252628745]
本稿では,スコアマッチングを組み合わせた勾配向上アルゴリズムとして,SSM(Supervised Score-based Model)を提案する。推測時間と予測精度のバランスをとるため,SSMの学習とサンプリングに関する理論的解析を行った。我々のモデルは、精度と推測時間の両方で既存のモデルより優れています。
論文参考訳（メタデータ） (2024-11-02T07:06:53Z)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳（メタデータ） (2024-10-12T23:56:19Z)
Variance-Reduced Cascade Q-learning: Algorithms and Sample Complexity [3.4376560669160394]
Variance-Reduced Cascade Q-learning (VRCQ)と呼ばれる新しいモデルなしアルゴリズムを導入し分析する。 VRCQは、既存のモデルフリー近似型アルゴリズムと比較して、$ell_infty$-normにおいて優れた保証を提供する。
論文参考訳（メタデータ） (2024-08-13T00:34:33Z)
Smart Sampling: Self-Attention and Bootstrapping for Improved Ensembled Q-Learning [0.6963971634605796]
アンサンブルQ学習のサンプル効率向上を目的とした新しい手法を提案する。提案手法は,組立Qネットワークにマルチヘッド自己アテンションを組み込むとともに,組立Qネットワークが取り入れた状態-動作ペアをブートストラップする。
論文参考訳（メタデータ） (2024-05-14T00:57:02Z)
Exploiting the Potential of Seq2Seq Models as Robust Few-Shot Learners [8.43854206194162]
この結果から,Seq2seqモデルは多種多様なアプリケーションに対して非常に効果的であることを示す。本稿では,セq2seqモデルにおける文脈内学習能力をより効果的に活用する2つの手法を提案する。
論文参考訳（メタデータ） (2023-07-27T13:37:06Z)
Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文参考訳（メタデータ） (2023-06-09T06:02:01Z)
Boosting Low-Data Instance Segmentation by Unsupervised Pre-training with Saliency Prompt [103.58323875748427]
この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。近年のPrompting技術の成功に触発されて,QEISモデルを強化した新しい事前学習手法を導入する。実験結果から,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることが示された。
論文参考訳（メタデータ） (2023-02-02T15:49:03Z)
Simultaneous Double Q-learning with Conservative Advantage Learning for Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文参考訳（メタデータ） (2022-05-08T09:17:16Z)
Aggressive Q-Learning with Ensembles: Achieving Both High Sample Efficiency and High Asymptotic Performance [12.871109549160389]
本稿では、REDQのサンプル効率とTQCの性能を改善する新しいモデルフリーアルゴリズム、AQEを提案する。 AQEは非常に単純で、批評家の分布表現もターゲットのランダム化も必要としない。
論文参考訳（メタデータ） (2021-11-17T14:48:52Z)
Dropout Q-Functions for Doubly Efficient Reinforcement Learning [12.267045729018653]
本稿では,Dr.Qという計算効率向上手法を提案する。 Dr.Qは、ドロップアウトQ関数の小さなアンサンブルを使用するREDQの変種である。 REDQと同等のサンプル効率、REDQよりはるかに優れた計算効率、SACと同等の計算効率を実現した。
論文参考訳（メタデータ） (2021-10-05T13:28:11Z)
When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。精度を向上させるために,2つの軽量モジュールを提案する。 DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。 QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文参考訳（メタデータ） (2021-05-27T13:51:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。