論文の概要: Wasserstein Adaptive Value Estimation for Actor-Critic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2501.10605v1
- Date: Fri, 17 Jan 2025 23:37:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:24:15.358402
- Title: Wasserstein Adaptive Value Estimation for Actor-Critic Reinforcement Learning
- Title(参考訳): Wasserstein Adaptive Value Estimation for Actor-Critic Reinforcement Learning
- Authors: Ali Baheri, Zahra Sharooei, Chirayu Salgarkar,
- Abstract要約: We present Wasserstein Adaptive Value Estimation for Actor-Critic (WAVE)
WAVEは、適応的に重み付けされたワッサースタイン正規化項を批評家の損失関数に組み込むことにより、アクター批判アルゴリズムの固有の不安定性に対処する。
WAVEが平均二乗誤差に対して$mathcalOleft(frac1kright)$収束率を達成できることを証明し、ワッサーシュタインに基づく正則化による安定性の理論的保証を提供する。
- 参考スコア(独自算出の注目度): 3.686808512438363
- License:
- Abstract: We present Wasserstein Adaptive Value Estimation for Actor-Critic (WAVE), an approach to enhance stability in deep reinforcement learning through adaptive Wasserstein regularization. Our method addresses the inherent instability of actor-critic algorithms by incorporating an adaptively weighted Wasserstein regularization term into the critic's loss function. We prove that WAVE achieves $\mathcal{O}\left(\frac{1}{k}\right)$ convergence rate for the critic's mean squared error and provide theoretical guarantees for stability through Wasserstein-based regularization. Using the Sinkhorn approximation for computational efficiency, our approach automatically adjusts the regularization based on the agent's performance. Theoretical analysis and experimental results demonstrate that WAVE achieves superior performance compared to standard actor-critic methods.
- Abstract(参考訳): 本稿では,適応ワッサースタイン正則化による深部強化学習の安定性向上を目的とした,アクタ・クリティカル(WAVE)に対するワッサースタイン適応値推定手法を提案する。
本手法は,適応重み付きワッサースタイン正規化項を批評家の損失関数に組み込むことにより,アクター批判アルゴリズムの本質的な不安定性に対処する。
WAVEは、批評家の平均二乗誤差に対して$\mathcal{O}\left(\frac{1}{k}\right)$収束率を達成し、ワッサーシュタインに基づく正則化による安定性の理論的保証を提供する。
シンクホーン近似を計算効率に応用し,エージェントの性能に基づく正規化を自動的に調整する。
理論解析と実験結果から、WAVEは標準的なアクター批判法に比べて優れた性能を発揮することが示された。
関連論文リスト
- Actively Learning Reinforcement Learning: A Stochastic Optimal Control Approach [3.453622106101339]
本研究では,2つの相互に結びついた目的を達成するための枠組みを提案する。 (i) 積極的な探索と意図的な情報収集を伴う強化学習と, (ii) 最適制御法の計算的難易度を克服する枠組みである。
我々は、強化学習を用いて最適制御則を計算することにより、両方の目的にアプローチする。
一定の探索と搾取バランスとは異なり、学習プロセスが終了しても、警告と探索はリアルタイムでコントローラによって自動的に行われる。
論文 参考訳(メタデータ) (2023-09-18T18:05:35Z) - ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive Advantages [37.12048108122337]
本稿では, アクター批判的深層強化学習におけるベイズ推定の近似に向けてのステップを提案する。
Asynchronous Advantage Actor-Critic (A3C)アルゴリズムの3つの変更によって実装されている。
論文 参考訳(メタデータ) (2023-06-02T11:37:22Z) - Exploring the Algorithm-Dependent Generalization of AUPRC Optimization
with List Stability [107.65337427333064]
AUPRC(Area Under the Precision-Recall Curve)の最適化は、機械学習にとって重要な問題である。
本研究では, AUPRC最適化の単依存一般化における最初の試行について述べる。
3つの画像検索データセットの実験は、我々のフレームワークの有効性と健全性に言及する。
論文 参考訳(メタデータ) (2022-09-27T09:06:37Z) - Fast Distributionally Robust Learning with Variance Reduced Min-Max
Optimization [85.84019017587477]
分散的ロバストな教師付き学習は、現実世界のアプリケーションのための信頼性の高い機械学習システムを構築するための重要なパラダイムとして登場している。
Wasserstein DRSLを解くための既存のアルゴリズムは、複雑なサブプロブレムを解くか、勾配を利用するのに失敗する。
我々はmin-max最適化のレンズを通してwaserstein drslを再検討し、スケーラブルで効率的に実装可能な超勾配アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-04-27T16:56:09Z) - Stochastic Optimization of Areas Under Precision-Recall Curves with
Provable Convergence [66.83161885378192]
ROC(AUROC)と精度リコール曲線(AUPRC)の下の領域は、不均衡問題に対する分類性能を評価するための一般的な指標である。
本稿では,深層学習のためのAUPRCの最適化手法を提案する。
論文 参考訳(メタデータ) (2021-04-18T06:22:21Z) - Offline Reinforcement Learning with Fisher Divergence Critic
Regularization [41.085156836450466]
そこで我々は,学習した政策がデータに近づき続けることを奨励する代替的アプローチを提案する。
動作の正規化は、オフセット期間の適切な正規化に対応します。
本研究ではfisher-brcアルゴリズムにより,既存の最先端手法に対する性能向上と収束の高速化を両立する。
論文 参考訳(メタデータ) (2021-03-14T22:11:40Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Robust Reinforcement Learning with Wasserstein Constraint [49.86490922809473]
最適なロバストなポリシーの存在を示し、摂動に対する感度分析を行い、新しいロバストな学習アルゴリズムを設計する。
提案アルゴリズムの有効性はCart-Pole環境で検証する。
論文 参考訳(メタデータ) (2020-06-01T13:48:59Z) - How to Learn a Useful Critic? Model-based Action-Gradient-Estimator
Policy Optimization [10.424426548124696]
本稿では,政策勾配理論に基づくモデルに基づくアクター批判アルゴリズムであるMAGEを提案する。
MAGEは学習されたダイナミクスを通じて逆伝搬し、時間差学習において勾配目標を計算する。
モデルフリーおよびモデルベースベースラインと比較して,アルゴリズムの効率性を示す。
論文 参考訳(メタデータ) (2020-04-29T16:30:53Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。