論文の概要: Double Actor-Critic with TD Error-Driven Regularization in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.19231v1
- Date: Sat, 28 Sep 2024 04:22:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 00:28:26.057401
- Title: Double Actor-Critic with TD Error-Driven Regularization in Reinforcement Learning
- Title(参考訳): 強化学習におけるTD誤差駆動型正規化による二重アクター臨界
- Authors: Haohui Chen, Zhiyong Chen, Aoxiang Liu, Wentuo Fang,
- Abstract要約: 本稿では,時間差誤差駆動型正規化手法であるTDDRを省略した新しいアルゴリズムを提案する。
TDDRはダブルアクターを採用し、各アクターが批評家とペアを組むことで、ダブルアクターの利点を完全に活用する。
従来の決定論的ポリシー勾配に基づくアルゴリズムでは、アクター批判的な二重構造が欠如しているのに対し、TDDRはより優れた推定を提供する。
- 参考スコア(独自算出の注目度): 3.7934309509341215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To obtain better value estimation in reinforcement learning, we propose a novel algorithm based on the double actor-critic framework with temporal difference error-driven regularization, abbreviated as TDDR. TDDR employs double actors, with each actor paired with a critic, thereby fully leveraging the advantages of double critics. Additionally, TDDR introduces an innovative critic regularization architecture. Compared to classical deterministic policy gradient-based algorithms that lack a double actor-critic structure, TDDR provides superior estimation. Moreover, unlike existing algorithms with double actor-critic frameworks, TDDR does not introduce any additional hyperparameters, significantly simplifying the design and implementation process. Experiments demonstrate that TDDR exhibits strong competitiveness compared to benchmark algorithms in challenging continuous control tasks.
- Abstract(参考訳): 筋力学習における価値推定の精度向上を目的として,時間差誤差駆動型正規化手法であるTDDRを提案する。
TDDRはダブルアクターを採用し、各アクターが批評家とペアを組むことで、ダブルアクターの利点を完全に活用する。
さらに、TDDRは革新的な批判的正規化アーキテクチャを導入している。
従来の決定論的ポリシー勾配に基づくアルゴリズムではアクター批判的な二重構造が欠如しているのに対し、TDDRは優れた推定結果を提供する。
さらに、アクタークリティカルな2つのフレームワークを持つ既存のアルゴリズムとは異なり、TDDRは追加のハイパーパラメータを導入せず、設計と実装プロセスを大幅に単純化します。
TDDRは、継続的な制御タスクに挑戦するベンチマークアルゴリズムと比較して、強い競争力を示す。
関連論文リスト
- Relative Difficulty Distillation for Semantic Segmentation [54.76143187709987]
我々は,Relative Difficulty Distillation (RDD) というセマンティックセグメンテーションのための画素レベルのKDパラダイムを提案する。
RDDにより、教師ネットワークは、追加の最適化目標を伴わずに、学習焦点に対する効果的なガイダンスを提供することができる。
我々の研究は、RDDが既存のKDメソッドと統合して、上位パフォーマンスバウンダリを改善できることを示します。
論文 参考訳(メタデータ) (2024-07-04T08:08:25Z) - REBAR: Retrieval-Based Reconstruction for Time-series Contrastive Learning [64.08293076551601]
正の対を識別する学習尺度を新たに提案する。
検索ベースレコンストラクションは2つのシーケンス間の類似度を測定する。
本稿では,REBAR誤差が相互クラスメンバシップの予測因子であることを示す。
論文 参考訳(メタデータ) (2023-11-01T13:44:45Z) - How to Train Your DRAGON: Diverse Augmentation Towards Generalizable
Dense Retrieval [80.54532535622988]
教師付き検索とゼロショット検索の両方において高い精度を達成するために、一般化可能な高密度検索を訓練できることが示される。
多様な拡張で訓練された高密度レトリバーであるDRAGONは、教師付きおよびゼロショット評価の両方において最先端の有効性を実現する最初のBERTベースサイズのDRである。
論文 参考訳(メタデータ) (2023-02-15T03:53:26Z) - PAC-Bayesian Soft Actor-Critic Learning [9.752336113724928]
アクター批判アルゴリズムは、強化学習(RL)と政策評価と2つの関数近似器による改善という2つの目標に対処する。
我々は,このボトルネックに,Soft Actor-Critic (SAC) アルゴリズムの批判的トレーニング目標として,既存の確率的近似(PAC)ベイズ境界を初めて採用することによって対処する。
論文 参考訳(メタデータ) (2023-01-30T10:44:15Z) - Gradient Descent Temporal Difference-difference Learning [0.0]
GTDアルゴリズムであるGTD2を改善するために、降下時間差分差分法(グラディエントDD)学習を提案する。
本研究では,ランダムウォークタスク,ボイアンチェインタスク,ベアードのオフ・ポリチック・カウンターアンプを実証的に検討した。
論文 参考訳(メタデータ) (2022-09-10T08:55:20Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T19:36:19Z) - Efficient Continuous Control with Double Actors and Regularized Critics [7.072664211491016]
我々は,長期にわたって無視されてきた二重アクターの可能性を探り,連続的な設定におけるより良い値関数推定法を提案する。
我々は、DDPGの過大評価バイアスとTD3の過小評価バイアスに対処するため、シングル・批評家とダブル・批評家に二重アクターを構築した。
二重批評家による価値推定の不確実性を軽減するため、二重アクターアーキテクチャの下での批判ネットワークの正規化を提案する。
論文 参考訳(メタデータ) (2021-06-06T07:04:48Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z) - SOAR: Second-Order Adversarial Regularization [29.83835336491924]
敵のトレーニングは、敵の例に対するディープニューラルネットワークの堅牢性を改善するための一般的なアプローチである。
本研究では,新しい正規化手法を提案する。
提案する2次逆正則化器 (SOAR) は、ロバスト最適化目標における内最大のテイラー近似に基づく上界である。
論文 参考訳(メタデータ) (2020-04-04T01:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。