Fugu-MT 論文翻訳(概要): Mitigating Estimation Errors by Twin TD-Regularized Actor and Critic for Deep Reinforcement Learning

論文の概要: Mitigating Estimation Errors by Twin TD-Regularized Actor and Critic for Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2311.03711v1
Date: Tue, 7 Nov 2023 04:30:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-08 17:05:24.353801
Title: Mitigating Estimation Errors by Twin TD-Regularized Actor and Critic for Deep Reinforcement Learning
Title（参考訳）: 2つのTD正規化アクタによる推定誤差の緩和と深部強化学習への批判
Authors: Junmin Zhong, Ruofan Wu, and Jennie Si
Abstract要約: 深部強化学習(DRL)における推定バイアス問題に対処するために,新しい双子のTD正規化アクター批判法(TDR)を導入する。我々は,新しいアクタ批判学習により,DeepMind Control Suiteの課題環境において,DRL手法がそれぞれのベースラインを上回ったことを示す。
参考スコア（独自算出の注目度）: 10.577516871906816
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We address the issue of estimation bias in deep reinforcement learning (DRL) by introducing solution mechanisms that include a new, twin TD-regularized actor-critic (TDR) method. It aims at reducing both over and under-estimation errors. With TDR and by combining good DRL improvements, such as distributional learning and long N-step surrogate stage reward (LNSS) method, we show that our new TDR-based actor-critic learning has enabled DRL methods to outperform their respective baselines in challenging environments in DeepMind Control Suite. Furthermore, they elevate TD3 and SAC respectively to a level of performance comparable to that of D4PG (the current SOTA), and they also improve the performance of D4PG to a new SOTA level measured by mean reward, convergence speed, learning success rate, and learning variance.
Abstract（参考訳）: 本稿では,TD-regularized actor-critic(TDR)法を新たに導入し,深層強化学習(DRL)における推定バイアスの問題に対処する。過度と過度の両方のエラーを減らすことを目的としている。分散学習と長期N段代理ステージ報酬(LNSS)法などの優れたDRL改善を組み合わせることで,本手法がDeepMind Control Suiteの課題環境において,TDRベースのアクタークリティカルラーニングにより,DRL法がそれぞれのベースラインを上回ることを示す。さらに、TD3とSACは、それぞれD4PG(現在のSOTA)と同等の性能レベルまで上昇し、D4PGを平均報酬、収束速度、学習成功率、学習分散度で測定した新しいSOTAレベルに改善する。

関連論文リスト

Ratio Divergence Learning Using Target Energy in Restricted Boltzmann Machines: Beyond Kullback--Leibler Divergence Learning [0.0]
本稿では,離散エネルギーモデルに対する比率分散(RD)学習を提案する。 RD学習は、前向きと逆向きのKullback-Leibler divergence(KLD)学習の強さを組み合わせる。数値実験により、RD学習は他の学習方法よりもかなり優れていることが示された。
論文参考訳（メタデータ） (2024-09-12T01:01:55Z)
Relative Difficulty Distillation for Semantic Segmentation [54.76143187709987]
我々は,Relative Difficulty Distillation (RDD) というセマンティックセグメンテーションのための画素レベルのKDパラダイムを提案する。 RDDにより、教師ネットワークは、追加の最適化目標を伴わずに、学習焦点に対する効果的なガイダンスを提供することができる。我々の研究は、RDDが既存のKDメソッドと統合して、上位パフォーマンスバウンダリを改善できることを示します。
論文参考訳（メタデータ） (2024-07-04T08:08:25Z)
Symmetric Reinforcement Learning Loss for Robust Learning on Diverse Tasks and Model Scales [13.818149654692863]
強化学習(RL)トレーニングは、移動目標や高勾配分散などの要因により本質的に不安定である。本研究では,雑音データに対する教師付き学習から逆クロスエントロピー(RCE)を適用し,対称的なRL損失を定義することにより,RLトレーニングの安定性を向上させる。
論文参考訳（メタデータ） (2024-05-27T19:28:33Z)
Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文参考訳（メタデータ） (2023-04-20T17:11:05Z)
Deep Metric Learning for Unsupervised Remote Sensing Change Detection [60.89777029184023]
リモートセンシング変化検出(RS-CD)は、マルチテンポラルリモートセンシング画像(MT-RSI)から関連する変化を検出することを目的とする。既存のRS-CD法の性能は、大規模な注釈付きデータセットのトレーニングによるものである。本稿では,これらの問題に対処可能なディープメトリック学習に基づく教師なしCD手法を提案する。
論文参考訳（メタデータ） (2023-03-16T17:52:45Z)
How to Train Your DRAGON: Diverse Augmentation Towards Generalizable Dense Retrieval [80.54532535622988]
教師付き検索とゼロショット検索の両方において高い精度を達成するために、一般化可能な高密度検索を訓練できることが示される。多様な拡張で訓練された高密度レトリバーであるDRAGONは、教師付きおよびゼロショット評価の両方において最先端の有効性を実現する最初のBERTベースサイズのDRである。
論文参考訳（メタデータ） (2023-02-15T03:53:26Z)
Multi-level Distance Regularization for Deep Metric Learning [20.178765779788492]
MDR(Multi-level Distance Regularization)と呼ばれる深度学習のための距離に基づく新しい正規化手法を提案する。 MDRは、埋め込みベクトル間のペアワイズ距離を複数のレベルに調整することで、学習手順を明示的に妨害する。我々のMDRを簡単に採用することで、従来のアプローチは性能と一般化能力を向上させることができる。
論文参考訳（メタデータ） (2021-02-08T14:16:07Z)
SelfVoxeLO: Self-supervised LiDAR Odometry with Voxel-based Deep Neural Networks [81.64530401885476]
本稿では,これら2つの課題に対処するために,自己教師型LiDARオドメトリー法(SelfVoxeLO)を提案する。具体的には、生のLiDARデータを直接処理する3D畳み込みネットワークを提案し、3D幾何パターンをよりよく符号化する特徴を抽出する。我々は,KITTIとApollo-SouthBayという2つの大規模データセット上での手法の性能を評価する。
論文参考訳（メタデータ） (2020-10-19T09:23:39Z)
The Effect of Multi-step Methods on Overestimation in Deep Reinforcement Learning [6.181642248900806]
強化学習における多段階法(n段階法)は1段階法よりも効率的であることが示されている。 MDDPG と MMDDPG の両者は 1 段階バックアップによる DDPG よりも過大評価問題の影響が著しく小さいことを示す。また、近似誤差を低減するために、多段階展開を行う様々な方法の利点と欠点についても論じる。
論文参考訳（メタデータ） (2020-06-23T01:35:54Z)
Channel Attention based Iterative Residual Learning for Depth Map Super-Resolution [58.626803922196146]
我々は、合成データセットで訓練されたDSRモデルは制限的であり、実世界のDSRタスクを扱うのに有効ではないと論じる。我々は、異なる深度センサの現実世界の劣化に対処するために2つの貢献をしている。 4つのモジュールからなる実世界のDSRのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2020-06-02T09:12:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。