論文の概要: Conservative DDPG -- Pessimistic RL without Ensemble
- arxiv url: http://arxiv.org/abs/2403.05732v1
- Date: Fri, 8 Mar 2024 23:59:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-03-13 12:41:24.497660
- Title: Conservative DDPG -- Pessimistic RL without Ensemble
- Title(参考訳): DDPG -- アンサンブルのない悲観的RL
- Authors: Nitsan Soffair, Shie Mannor
- Abstract要約: DDPGは過大評価バイアス問題によって妨げられている。
このバイアスに対する伝統的な解決策は、アンサンブルに基づく方法を含んでいる。
本稿では,Q$-targetと行動クローン(BC)損失ペナルティを組み込んだ簡単なソリューションを提案する。
- 参考スコア(独自算出の注目度): 57.428976336729335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: DDPG is hindered by the overestimation bias problem, wherein its
$Q$-estimates tend to overstate the actual $Q$-values. Traditional solutions to
this bias involve ensemble-based methods, which require significant
computational resources, or complex log-policy-based approaches, which are
difficult to understand and implement. In contrast, we propose a
straightforward solution using a $Q$-target and incorporating a behavioral
cloning (BC) loss penalty. This solution, acting as an uncertainty measure, can
be easily implemented with minimal code and without the need for an ensemble.
Our empirical findings strongly support the superiority of Conservative DDPG
over DDPG across various MuJoCo and Bullet tasks. We consistently observe
better performance in all evaluated tasks and even competitive or superior
performance compared to TD3 and TD7, all achieved with significantly reduced
computational requirements.
- Abstract(参考訳): DDPGは過大評価バイアスの問題によって妨げられ、$Q$-estimatesは実際の$Q$-valueをオーバーステートする傾向がある。
このバイアスに対する従来のソリューションには、重要な計算リソースを必要とするアンサンブルベースの方法や、理解や実装が難しい複雑なログポリシーベースのアプローチが含まれる。
対照的に,我々は,$q$-target を用いて,行動クローン (bc) 損失ペナルティを組み込んだ簡易解を提案する。
このソリューションは不確実性対策として機能し、最小限のコードで簡単に実装でき、アンサンブルを必要としない。
各種の MuJoCo および Bullet タスクにおける DDPG よりも保守的な DDPG の方が優れていた。
我々は,TD3やTD7と比較して,全ての評価タスクにおける優れた性能と,競争力や優れた性能を継続的に観察する。
関連論文リスト
- Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - Cost Minimization for Space-Air-Ground Integrated Multi-Access Edge Computing Systems [60.586531406445744]
宇宙空間統合多高度エッジコンピューティング(SAGIN-MEC)は、急速に発展する低高度経済に有望なソリューションを提供する。
本稿では、ユーザデバイス(UD)、無人航空機(UAV)、衛星間の協調を可能にするSAGIN-MECアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-10-24T15:03:07Z) - Scalable Multi-Objective Robot Reinforcement Learning through Gradient Conflict Resolution [2.359524447776588]
タスクベースの報酬と、現実的な行動に対するポリシーを規則化する用語の衝突を解決する方法を示す。
本稿では、アクター更新を客観的な勾配に分解するアクター批判最適化の修正であるGCR-PPOを提案する。
GCR-PPOは、最大で9.5%の改善を達成し、より高度な改善を観察する、大規模な近位政策最適化を改善する。
論文 参考訳(メタデータ) (2025-09-18T10:18:07Z) - GDBA Revisited: Unleashing the Power of Guided Local Search for Distributed Constraint Optimization [23.069147641568467]
局所探索は分散制約最適化問題(DCOP)を解決するための不完全アルゴリズムの重要なクラスである
我々はDCOPのための新しいGLSフレームワークであるDistributed Guided Local Search (DGLS)を提案する。
各種標準ベンチマークにおける実験結果は、最先端のベースラインよりもDGLSが優れていることを示す。
論文 参考訳(メタデータ) (2025-08-09T09:12:06Z) - Provably Sample-Efficient Robust Reinforcement Learning with Average Reward [4.530028899565083]
本稿では,$ell_p$-normと汚染モデルにより特徴付けられる遷移不確実性を持つロバストなマルコフ決定過程(MDP)を設計した新しいアルゴリズムを提案する。
我々のアルゴリズムは、頑健なMDPの事前知識を必要とせずに動作する。
我々の研究は、ロバスト平均報酬RLのサンプル効率の基本的な理論的理解を提供する。
論文 参考訳(メタデータ) (2025-05-18T15:34:45Z) - $β$-DQN: Improving Deep Q-Learning By Evolving the Behavior [41.13282452752521]
$beta$-DQNは、振る舞い関数で標準DQNを拡張する、シンプルで効率的な探索方法である。
適応型メタコントローラは、各エピソードに有効なポリシーを選択し、柔軟で説明可能な探索を可能にするように設計されている。
単純かつ挑戦的な探索領域の実験は、$beta$-DQNが既存のベースラインメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2025-01-01T18:12:18Z) - Scalable 3D Registration via Truncated Entry-wise Absolute Residuals [65.04922801371363]
3ドルの登録アプローチでは、1000万ドル(107ドル)以上のポイントペアを、99%以上のランダムなアウトレイアで処理することができる。
我々はこの手法をTEARと呼び、Trncated Entry-wise Absolute Residualsを演算するoutlier-robust損失を最小限にする。
論文 参考訳(メタデータ) (2024-04-01T04:43:39Z) - Alternating Objectives Generates Stronger PGD-Based Adversarial Attacks [78.2700757742992]
Projected Gradient Descent (PGD) は、そのような敵を生成するための最も効果的で概念的にシンプルなアルゴリズムの1つである。
この主張を合成データの例で実験的に検証し、提案手法を25の$ell_infty$-robustモデルと3つのデータセットで評価した。
私たちの最強の敵攻撃は、AutoAttackアンサンブルのすべてのホワイトボックスコンポーネントより優れています。
論文 参考訳(メタデータ) (2022-12-15T17:44:31Z) - Dealing with Sparse Rewards in Continuous Control Robotics via
Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。
高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-06-12T04:09:39Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Revisiting Gaussian mixture critics in off-policy reinforcement
learning: a sample-based approach [28.199348547856175]
本稿では、政策が達成できる最小限の知識と価値に関する事前知識の要求を除去する自然な代替案を再考する。
さまざまな課題に対して最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-04-21T16:44:47Z) - Implicitly Regularized RL with Implicit Q-Values [42.87920755961722]
Q$関数は多くの強化学習(RL)アルゴリズムにおいて中心的な量であり、RLエージェントは(ソフト)グレーディポリシーに従って振る舞う。
対数政治と値関数の和として、暗黙的に$Q$-関数をパラメータ化することを提案する。
我々は,大規模アクション空間に適した実用的な非政治的深部RLアルゴリズムを導出し,ポリシーと$Q$値とのソフトマックス関係を強制する。
論文 参考訳(メタデータ) (2021-08-16T12:20:47Z) - Multiagent Rollout and Policy Iteration for POMDP with Application to
Multi-Robot Repair Problems [1.6939372704265414]
有限状態および制御空間,部分状態観測,マルチエージェント構造を有する無限地平面割引動的プログラミング問題を考える。
本手法は、部分的に観測可能なマルチエージェント問題の計算問題に特に対処する。
論文 参考訳(メタデータ) (2020-11-09T06:51:50Z) - Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。
このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。
PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文 参考訳(メタデータ) (2020-07-31T01:02:57Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。