論文の概要: CrossQ: Batch Normalization in Deep Reinforcement Learning for Greater Sample Efficiency and Simplicity
- arxiv url: http://arxiv.org/abs/1902.05605v4
- Date: Mon, 25 Mar 2024 10:20:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 02:25:02.404043
- Title: CrossQ: Batch Normalization in Deep Reinforcement Learning for Greater Sample Efficiency and Simplicity
- Title(参考訳): CrossQ: より高効率で簡便な深層強化学習におけるバッチ正規化
- Authors: Aditya Bhatt, Daniel Palenicek, Boris Belousov, Max Argus, Artemij Amiranashvili, Thomas Brox, Jan Peters,
- Abstract要約: CrossQはサンプル効率の点で現在の最先端の手法と一致または超えている。
これはREDQやDroQに比べて計算コストを大幅に削減する。
SAC上にわずか数行のコードを必要とするため、実装が容易である。
- 参考スコア(独自算出の注目度): 34.36803740112609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sample efficiency is a crucial problem in deep reinforcement learning. Recent algorithms, such as REDQ and DroQ, found a way to improve the sample efficiency by increasing the update-to-data (UTD) ratio to 20 gradient update steps on the critic per environment sample. However, this comes at the expense of a greatly increased computational cost. To reduce this computational burden, we introduce CrossQ: A lightweight algorithm for continuous control tasks that makes careful use of Batch Normalization and removes target networks to surpass the current state-of-the-art in sample efficiency while maintaining a low UTD ratio of 1. Notably, CrossQ does not rely on advanced bias-reduction schemes used in current methods. CrossQ's contributions are threefold: (1) it matches or surpasses current state-of-the-art methods in terms of sample efficiency, (2) it substantially reduces the computational cost compared to REDQ and DroQ, (3) it is easy to implement, requiring just a few lines of code on top of SAC.
- Abstract(参考訳): サンプル効率は、深層強化学習において重要な問題である。
REDQやDroQといった最近のアルゴリズムは、更新データ(UTD)比を環境サンプル当たりの批評家の20段階に引き上げることで、サンプル効率を改善する方法を見つけた。
しかし、これは計算コストの大幅な増大によるものである。
この計算負担を軽減するために、CrossQを紹介します: バッチ正規化を慎重に利用し、UTD比1を低く保ちながら、サンプル効率の現在の状態を越えられるようにターゲットネットワークを除去する、連続制御タスクのための軽量なアルゴリズム。
特に、CrossQは現在の手法で使われる高度なバイアス低減スキームに依存しない。
CrossQのコントリビューションは3つある: 1) サンプル効率の観点から現在の最先端のメソッドにマッチまたは超過し、(2) REDQやDroQと比較して計算コストを大幅に削減し、(3) 実装が容易で、SAC上にわずか数行のコードを必要とする。
関連論文リスト
- A Fresh Take on Stale Embeddings: Improving Dense Retriever Training with Corrector Networks [81.2624272756733]
密集検索では、ディープエンコーダは入力とターゲットの両方に埋め込みを提供する。
我々は、古いキャッシュされたターゲット埋め込みを調整できる小さなパラメトリック補正ネットワークを訓練する。
私たちのアプローチは、トレーニング中にターゲット埋め込み更新が行われなくても、最先端の結果と一致します。
論文 参考訳(メタデータ) (2024-09-03T13:29:13Z) - Efficient Sparse-Reward Goal-Conditioned Reinforcement Learning with a
High Replay Ratio and Regularization [1.57731592348751]
高再生率(RR)と正則化を有する強化学習(RL)法は, より優れた試料効率により注目されている。
本稿では、これらのRL手法をスパース・リワード目標条件タスクに拡張することを目的とする。
論文 参考訳(メタデータ) (2023-12-10T06:30:19Z) - Deep Equilibrium Optical Flow Estimation [80.80992684796566]
最近のSOTA(State-of-the-art)光フローモデルでは、従来のアルゴリズムをエミュレートするために有限ステップの更新操作を使用する。
これらのRNNは大きな計算とメモリオーバーヘッドを課し、そのような安定した推定をモデル化するために直接訓練されていない。
暗黙的層の無限レベル固定点として直接流れを解く手法として,Deep equilibrium Flow estimatorを提案する。
論文 参考訳(メタデータ) (2022-04-18T17:53:44Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Dropout Q-Functions for Doubly Efficient Reinforcement Learning [12.267045729018653]
本稿では,Dr.Qという計算効率向上手法を提案する。
Dr.Qは、ドロップアウトQ関数の小さなアンサンブルを使用するREDQの変種である。
REDQと同等のサンプル効率、REDQよりはるかに優れた計算効率、SACと同等の計算効率を実現した。
論文 参考訳(メタデータ) (2021-10-05T13:28:11Z) - Sample and Computation Redistribution for Efficient Face Detection [137.19388513633484]
トレーニングデータサンプリングと計算分布戦略は、効率的で正確な顔検出の鍵です。
scrfdf34は、最高の競合製品であるTinaFaceを3.86%(ハードセットでのAP)で上回り、GPU上でVGA解像度画像でmph3$times$より高速です。
論文 参考訳(メタデータ) (2021-05-10T23:51:14Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z) - Randomized Ensembled Double Q-Learning: Learning Fast Without a Model [8.04816643418952]
簡単なモデルなしアルゴリズムRandomized Ensembled Double Q-Learning (REDQ)を導入する。
REDQのパフォーマンスは、MuJoCoベンチマークの最先端のモデルベースのアルゴリズムと同じくらい優れていることを示しています。
論文 参考訳(メタデータ) (2021-01-15T06:25:58Z) - Cross-Iteration Batch Normalization [67.83430009388678]
本稿では,CBN(Cross-It Batch Normalization)を提案する。
CBNは、提案した補償手法を使わずに、元のバッチ正規化と過去の繰り返しの統計の直接計算より優れていた。
論文 参考訳(メタデータ) (2020-02-13T18:52:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。