論文の概要: Aggressive Q-Learning with Ensembles: Achieving Both High Sample
Efficiency and High Asymptotic Performance
- arxiv url: http://arxiv.org/abs/2111.09159v1
- Date: Wed, 17 Nov 2021 14:48:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 14:22:14.859478
- Title: Aggressive Q-Learning with Ensembles: Achieving Both High Sample
Efficiency and High Asymptotic Performance
- Title(参考訳): アンサンブルを用いたアグレッシブq-learning:高サンプル効率と高漸近性能の両立
- Authors: Yanqiu Wu, Xinyue Chen, Che Wang, Yiming Zhang, Zijian Zhou, Keith W.
Ross
- Abstract要約: 本稿では、REDQのサンプル効率とTQCの性能を改善する新しいモデルフリーアルゴリズム、AQEを提案する。
AQEは非常に単純で、批評家の分布表現もターゲットのランダム化も必要としない。
- 参考スコア(独自算出の注目度): 12.871109549160389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Truncated Quantile Critics (TQC), using distributional
representation of critics, was shown to provide state-of-the-art asymptotic
training performance on all environments from the MuJoCo continuous control
benchmark suite. Also recently, Randomized Ensemble Double Q-Learning (REDQ),
using a high update-to-data ratio and target randomization, was shown to
achieve high sample efficiency that is competitive with state-of-the-art
model-based methods. In this paper, we propose a novel model-free algorithm,
Aggressive Q-Learning with Ensembles (AQE), which improves the
sample-efficiency performance of REDQ and the asymptotic performance of TQC,
thereby providing overall state-of-the-art performance during all stages of
training. Moreover, AQE is very simple, requiring neither distributional
representation of critics nor target randomization.
- Abstract(参考訳): 近年,批評家の分布表現を用いたTruncated Quantile Critics (TQC)は, MuJoCo連続制御ベンチマークスイートのすべての環境において,最先端の漸近的トレーニング性能を提供することを示した。
また,近年では,高度更新データ比と目標ランダム化を用いたランダム化アンサンブルダブルq-learning (redq) が,最先端モデルベース手法に匹敵する高いサンプル効率を達成した。
本稿では,redqのサンプル効率とtqcの漸近的性能を向上し,トレーニングのすべての段階での総合的最先端性能を提供する,新しいモデルフリーアルゴリズムであるアグレッシブq-learning with ensembles(aqe)を提案する。
さらに、AQEは非常に単純で、批評家の分布表現もターゲットのランダム化も必要としない。
関連論文リスト
- Boosting CLIP Adaptation for Image Quality Assessment via Meta-Prompt Learning and Gradient Regularization [55.09893295671917]
本稿では,Gdient-Regulated Meta-Prompt IQA Framework (GRMP-IQA)を紹介する。
GRMP-IQAはMeta-Prompt事前学習モジュールとQuality-Aware Gradient Regularizationの2つの主要なモジュールから構成されている。
5つの標準BIQAデータセットの実験は、限られたデータ設定下での最先端BIQA手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-09T07:26:21Z) - Smart Sampling: Self-Attention and Bootstrapping for Improved Ensembled Q-Learning [0.6963971634605796]
アンサンブルQ学習のサンプル効率向上を目的とした新しい手法を提案する。
提案手法は,組立Qネットワークにマルチヘッド自己アテンションを組み込むとともに,組立Qネットワークが取り入れた状態-動作ペアをブートストラップする。
論文 参考訳(メタデータ) (2024-05-14T00:57:02Z) - Push Quantization-Aware Training Toward Full Precision Performances via
Consistency Regularization [23.085230108628707]
量子アウェアトレーニング(QAT)の手法は、完全な精度(FP)向上に向けた性能を保証するために、ラベル付きデータセットや知識の蒸留に大きく依存する。
本稿では,QATのための一貫性規則化(CR)を導入する,シンプルで斬新だが強力な手法を提案する。
本手法は,異なるネットワークアーキテクチャと様々なQAT手法によく適応する。
論文 参考訳(メタデータ) (2024-02-21T03:19:48Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - Improving Offline-to-Online Reinforcement Learning with Q Conditioned State Entropy Exploration [29.891468119032]
オフライン強化学習(RL)の事前学習方針を微調整する方法について検討する。
固有報酬としてQ条件状態エントロピー(QCSE)を提案する。
QCSEによる大幅な改善(CQLで約13%、Cal-QLで8%)を観察します。
論文 参考訳(メタデータ) (2023-10-07T00:02:05Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - Task-Specific Normalization for Continual Learning of Blind Image
Quality Models [105.03239956378465]
視覚的画像品質評価(BIQA)のための簡易かつ効果的な連続学習法を提案する。
このアプローチの重要なステップは、トレーニング済みのディープニューラルネットワーク(DNN)のすべての畳み込みフィルタを凍結して、安定性を明示的に保証することです。
我々は、各新しいIQAデータセット(タスク)に予測ヘッドを割り当て、対応する正規化パラメータをロードして品質スコアを生成する。
最終的な品質推定は、軽量な$K$-meansゲーティング機構で、すべての頭からの予測の重み付け総和によって計算される。
論文 参考訳(メタデータ) (2021-07-28T15:21:01Z) - Randomized Ensembled Double Q-Learning: Learning Fast Without a Model [8.04816643418952]
簡単なモデルなしアルゴリズムRandomized Ensembled Double Q-Learning (REDQ)を導入する。
REDQのパフォーマンスは、MuJoCoベンチマークの最先端のモデルベースのアルゴリズムと同じくらい優れていることを示しています。
論文 参考訳(メタデータ) (2021-01-15T06:25:58Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Feature Quantization Improves GAN Training [126.02828112121874]
識別器の特徴量子化(FQ)は、真と偽のデータの両方を共有離散空間に埋め込む。
本手法は,既存のGANモデルに容易に接続でき,訓練における計算オーバーヘッドがほとんどない。
論文 参考訳(メタデータ) (2020-04-05T04:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。