論文の概要: Mitigating Estimation Errors by Twin TD-Regularized Actor and Critic for
Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2311.03711v1
- Date: Tue, 7 Nov 2023 04:30:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 17:05:24.353801
- Title: Mitigating Estimation Errors by Twin TD-Regularized Actor and Critic for
Deep Reinforcement Learning
- Title(参考訳): 2つのTD正規化アクタによる推定誤差の緩和と深部強化学習への批判
- Authors: Junmin Zhong, Ruofan Wu, and Jennie Si
- Abstract要約: 深部強化学習(DRL)における推定バイアス問題に対処するために,新しい双子のTD正規化アクター批判法(TDR)を導入する。
我々は,新しいアクタ批判学習により,DeepMind Control Suiteの課題環境において,DRL手法がそれぞれのベースラインを上回ったことを示す。
- 参考スコア(独自算出の注目度): 10.577516871906816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the issue of estimation bias in deep reinforcement learning (DRL)
by introducing solution mechanisms that include a new, twin TD-regularized
actor-critic (TDR) method. It aims at reducing both over and under-estimation
errors. With TDR and by combining good DRL improvements, such as distributional
learning and long N-step surrogate stage reward (LNSS) method, we show that our
new TDR-based actor-critic learning has enabled DRL methods to outperform their
respective baselines in challenging environments in DeepMind Control Suite.
Furthermore, they elevate TD3 and SAC respectively to a level of performance
comparable to that of D4PG (the current SOTA), and they also improve the
performance of D4PG to a new SOTA level measured by mean reward, convergence
speed, learning success rate, and learning variance.
- Abstract(参考訳): 本稿では,TD-regularized actor-critic(TDR)法を新たに導入し,深層強化学習(DRL)における推定バイアスの問題に対処する。
過度と過度の両方のエラーを減らすことを目的としている。
分散学習と長期N段代理ステージ報酬(LNSS)法などの優れたDRL改善を組み合わせることで,本手法がDeepMind Control Suiteの課題環境において,TDRベースのアクタークリティカルラーニングにより,DRL法がそれぞれのベースラインを上回ることを示す。
さらに、TD3とSACは、それぞれD4PG(現在のSOTA)と同等の性能レベルまで上昇し、D4PGを平均報酬、収束速度、学習成功率、学習分散度で測定した新しいSOTAレベルに改善する。
関連論文リスト
- Exploiting Estimation Bias in Deep Double Q-Learning for Actor-Critic
Methods [6.403512866289237]
予測遅延Deep Deterministic Policy Gradient (ExpD3) と Bias Exploiting - 双遅延Deep Deterministic Policy Gradient (BE-TD3) の2つの新しいアルゴリズムを提案する。
ExpD3は1つの$Q$推定で過大評価バイアスを減らすことを目的としており、BE-TD3はトレーニング中に最も有利な推定バイアスを動的に選択するように設計されている。
これらのアルゴリズムは、特に推定バイアスが学習に大きな影響を及ぼす環境において、TD3のような既存の手法にマッチするか、超える可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-14T10:44:03Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - Deep Metric Learning for Unsupervised Remote Sensing Change Detection [60.89777029184023]
リモートセンシング変化検出(RS-CD)は、マルチテンポラルリモートセンシング画像(MT-RSI)から関連する変化を検出することを目的とする。
既存のRS-CD法の性能は、大規模な注釈付きデータセットのトレーニングによるものである。
本稿では,これらの問題に対処可能なディープメトリック学習に基づく教師なしCD手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:52:45Z) - How to Train Your DRAGON: Diverse Augmentation Towards Generalizable
Dense Retrieval [80.54532535622988]
教師付き検索とゼロショット検索の両方において高い精度を達成するために、一般化可能な高密度検索を訓練できることが示される。
多様な拡張で訓練された高密度レトリバーであるDRAGONは、教師付きおよびゼロショット評価の両方において最先端の有効性を実現する最初のBERTベースサイズのDRである。
論文 参考訳(メタデータ) (2023-02-15T03:53:26Z) - TEDL: A Two-stage Evidential Deep Learning Method for Classification
Uncertainty Quantification [8.246782042590251]
分類タスクにおける深層学習モデルの不確実性を定量化する2段階学習手法を提案する。
提案する2段階学習フレームワークは,AUCを大幅に向上し,トレーニングの堅牢性を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-09-12T18:08:11Z) - Efficient Continuous Control with Double Actors and Regularized Critics [7.072664211491016]
我々は,長期にわたって無視されてきた二重アクターの可能性を探り,連続的な設定におけるより良い値関数推定法を提案する。
我々は、DDPGの過大評価バイアスとTD3の過小評価バイアスに対処するため、シングル・批評家とダブル・批評家に二重アクターを構築した。
二重批評家による価値推定の不確実性を軽減するため、二重アクターアーキテクチャの下での批判ネットワークの正規化を提案する。
論文 参考訳(メタデータ) (2021-06-06T07:04:48Z) - Multi-level Distance Regularization for Deep Metric Learning [20.178765779788492]
MDR(Multi-level Distance Regularization)と呼ばれる深度学習のための距離に基づく新しい正規化手法を提案する。
MDRは、埋め込みベクトル間のペアワイズ距離を複数のレベルに調整することで、学習手順を明示的に妨害する。
我々のMDRを簡単に採用することで、従来のアプローチは性能と一般化能力を向上させることができる。
論文 参考訳(メタデータ) (2021-02-08T14:16:07Z) - SelfVoxeLO: Self-supervised LiDAR Odometry with Voxel-based Deep Neural
Networks [81.64530401885476]
本稿では,これら2つの課題に対処するために,自己教師型LiDARオドメトリー法(SelfVoxeLO)を提案する。
具体的には、生のLiDARデータを直接処理する3D畳み込みネットワークを提案し、3D幾何パターンをよりよく符号化する特徴を抽出する。
我々は,KITTIとApollo-SouthBayという2つの大規模データセット上での手法の性能を評価する。
論文 参考訳(メタデータ) (2020-10-19T09:23:39Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - The Effect of Multi-step Methods on Overestimation in Deep Reinforcement
Learning [6.181642248900806]
強化学習における多段階法(n段階法)は1段階法よりも効率的であることが示されている。
MDDPG と MMDDPG の両者は 1 段階バックアップによる DDPG よりも過大評価問題の影響が著しく小さいことを示す。
また、近似誤差を低減するために、多段階展開を行う様々な方法の利点と欠点についても論じる。
論文 参考訳(メタデータ) (2020-06-23T01:35:54Z) - Channel Attention based Iterative Residual Learning for Depth Map
Super-Resolution [58.626803922196146]
我々は、合成データセットで訓練されたDSRモデルは制限的であり、実世界のDSRタスクを扱うのに有効ではないと論じる。
我々は、異なる深度センサの現実世界の劣化に対処するために2つの貢献をしている。
4つのモジュールからなる実世界のDSRのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-02T09:12:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。