論文の概要: MinMaxMin $Q$-learning
- arxiv url: http://arxiv.org/abs/2402.05951v3
- Date: Sun, 2 Jun 2024 19:40:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 18:53:33.892727
- Title: MinMaxMin $Q$-learning
- Title(参考訳): MinMaxMin$Q$-learning
- Authors: Nitsan Soffair, Shie Mannor,
- Abstract要約: MinMaxMin $Q$-learningは、過大評価バイアスの問題に対処する新しい楽観的アクター・クリティカルアルゴリズムである。
我々はTD3とTD7の上にMinMaxMinを実装し、最先端の連続空間アルゴリズムに対して厳密なテストを行う。
その結果、すべてのテストタスクでDDPG、TD3、TD7よりもMinMaxMinが一貫したパフォーマンス向上を示した。
- 参考スコア(独自算出の注目度): 48.61228614796803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: MinMaxMin $Q$-learning is a novel optimistic Actor-Critic algorithm that addresses the problem of overestimation bias ($Q$-estimations are overestimating the real $Q$-values) inherent in conservative RL algorithms. Its core formula relies on the disagreement among $Q$-networks in the form of the min-batch MaxMin $Q$-networks distance which is added to the $Q$-target and used as the priority experience replay sampling-rule. We implement MinMaxMin on top of TD3 and TD7, subjecting it to rigorous testing against state-of-the-art continuous-space algorithms-DDPG, TD3, and TD7-across popular MuJoCo and Bullet environments. The results show a consistent performance improvement of MinMaxMin over DDPG, TD3, and TD7 across all tested tasks.
- Abstract(参考訳): MinMaxMin $Q$-learningは、保守的RLアルゴリズムに固有の真の$Q$-valueを過大評価する)過大評価バイアスの問題に対処する、新しい楽観的なアクター・クリティカルアルゴリズムである。
その中核的な公式は、min-batch MaxMin $Q$-networks の形で、$Q$-target に追加され、サンプリングルールを優先的に再生するエクスペリエンスとして使用される$Q$-networks 間の不一致に依存している。
我々は、TD3とTD7の上にMinMaxMinを実装し、最先端の連続空間アルゴリズム(DDPG、TD3、TD7)に対して厳格なテストを行う。
その結果、すべてのテストタスクでDDPG、TD3、TD7よりもMinMaxMinが一貫したパフォーマンス向上を示した。
関連論文リスト
- Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - SQT -- std $Q$-target [47.3621151424817]
Std $Q$-targetは、保守的でアクター批判的でアンサンブルで、Q$ラーニングベースのアルゴリズムである。
我々は、TD3/TD7コード上にSQTを実装し、最先端(SOTA)アクター批判アルゴリズムに対してテストする。
SQT の $Q$-target 式は TD3 の $Q$-target 式よりも優れており,RL の過大評価バイアスに対する保守的解である。
論文 参考訳(メタデータ) (2024-02-03T21:36:22Z) - PRECISION: Decentralized Constrained Min-Max Learning with Low
Communication and Sample Complexities [25.153506493249854]
min-max最適化問題に対する適応型マルチエージェント学習手法を提案する。
また,反復回数を削減できるPrecisionというアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-05T00:26:10Z) - Near-Minimax-Optimal Risk-Sensitive Reinforcement Learning with CVaR [58.40575099910538]
本研究は,リスク許容度が$tau$のCVaR(Conditional Value at Risk)の目的に着目し,リスクに敏感な強化学習(RL)について検討する。
ミニマックスCVaRの後悔率は$Omega(sqrttau-1AK)$で、$A$はアクションの数、$K$はエピソード数である。
我々は,このアルゴリズムが連続性仮定の下で$widetilde O(tau-1sqrtSAK)$の最適後悔を達成し,一般に近似することを示す。
論文 参考訳(メタデータ) (2023-02-07T02:22:31Z) - Agnostic Reinforcement Learning with Low-Rank MDPs and Rich Observations [79.66404989555566]
我々は、リッチな観測空間を持つより現実的な非依存的RLの設定と、近似的ポリシーを含まないような固定されたポリシーのクラス$Pi$を考える。
我々は,MDPの階数$d$の誤差が有界な設定のためのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-22T03:20:40Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Mixture Markov
Decision Processes [91.38793800392108]
本稿では,マルコフ決定過程(MDP)の遷移確率核が線形混合モデルである線形関数近似による強化学習について検討する。
上記の線形混合 MDP に対して$textUCRL-VTR+$ という線形関数近似を用いた計算効率の良い新しいアルゴリズムを提案する。
我々の知る限り、これらは線形関数近似を持つRLのための計算効率が良く、ほぼ最小のアルゴリズムである。
論文 参考訳(メタデータ) (2020-12-15T18:56:46Z) - The Complexity of Constrained Min-Max Optimization [29.57458485068705]
十分大きな局所点 min-max が存在することが保証されていることを示す。
さらに重要なこととして、近似的な固定勾配 Descent/Ascent 近似が完成することを示す。
この結果は、2つの基本的な最適化問題の指数関数近似を初めて示したものである。
論文 参考訳(メタデータ) (2020-09-21T05:54:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。