論文の概要: Mirror Descent Actor Critic via Bounded Advantage Learning
- arxiv url: http://arxiv.org/abs/2502.03854v1
- Date: Thu, 06 Feb 2025 08:14:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 15:30:40.674672
- Title: Mirror Descent Actor Critic via Bounded Advantage Learning
- Title(参考訳): 境界アドバンテージ学習によるミラーディフレッシュアクター批判
- Authors: Ryo Iwaki,
- Abstract要約: Mirror Descent Value Iteration (MDVI)は、Kulback-Leiblerの発散とエントロピーを、その値とポリシー更新の正則化として使用している。
本稿では,MDVIのアクター・アクター・アクター・アクター・クリティカル(MDAC)を連続的なアクション・ドメインに対するアクター・アクター・アクター・アクター・アクター・アクター・クリティ(MDAC)として提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Regularization is a core component of recent Reinforcement Learning (RL) algorithms. Mirror Descent Value Iteration (MDVI) uses both Kullback-Leibler divergence and entropy as regularizers in its value and policy updates. Despite its empirical success in discrete action domains and strong theoretical guarantees, the performance of a MDVI-based method does not surpass an entropy-only-regularized method in continuous action domains. In this study, we propose Mirror Descent Actor Critic (MDAC) as an actor-critic style instantiation of MDVI for continuous action domains, and show that its empirical performance is significantly boosted by bounding the actor's log-density terms in the critic's loss function, compared to a non-bounded naive instantiation. Further, we relate MDAC to Advantage Learning by recalling that the actor's log-probability is equal to the regularized advantage function in tabular cases, and theoretically discuss when and why bounding the advantage terms is validated and beneficial. We also empirically explore a good choice for the bounding function, and show that MDAC perfoms better than strong non-regularized and entropy-only-regularized methods with an appropriate choice of the bounding function.
- Abstract(参考訳): 正規化は、最近の強化学習(RL)アルゴリズムのコアコンポーネントである。
Mirror Descent Value Iteration (MDVI)は、Kulback-Leiblerの発散とエントロピーを、その値とポリシー更新の正則化として使用している。
離散的な作用領域における経験的成功と強力な理論的保証にもかかわらず、MDVIベースの手法の性能は連続的な作用領域におけるエントロピーのみ正規化法を超えない。
本研究では,連続行動領域に対するMDVIのアクター・アクター・アクター・アクター・クリティカル(MDAC)をアクター・アクター・アクター・アクター・アクター・アクター・アクター・アクター・アクター・アクター・アクター・アクター・アクター・アクター・アクター・アクター・アクター・アクター・アクター・アクター・アクター・アクター・アクター・アクター・アクター・アクター・アクター(MDAC)として提案する。
さらに、MDACとアドバンテージラーニングを関連づけ、アクターの対数確率が表例の場合の正規化優位関数に等しいことを思い出し、有利項の境界がいつ、なぜ有効であるかを理論的に議論する。
また, 有界関数に対する適切な選択を経験的に検討し, MDACが有界関数を適切に選択した強い非正則化法やエントロピー限定型正則化法よりも優れていることを示す。
関連論文リスト
- Proximal Action Replacement for Behavior Cloning Actor-Critic in Offline Reinforcement Learning [22.17044827069627]
安定なアクターによって生成される高価値なアクションに置き換える,プラグアンドプレイのトレーニングサンプル置換器を提案する。
実験の結果、PARはパフォーマンスを継続的に改善し、基礎的なTD3+BCと組み合わせることで最先端にアプローチすることがわかった。
論文 参考訳(メタデータ) (2026-02-07T08:44:27Z) - Regularized Gradient Temporal-Difference Learning [6.622208195193136]
関数近似を用いた非政治政策評価には,GTD学習アルゴリズムが広く用いられている。
本稿では,平均2乗予測ベルマン誤差 (MSPBE) を最小化することで,正規化された最適化目標を提案する。
この定式化は自然に R-GTD と呼ばれる正規化された GTD アルゴリズムを生み出し、これは FIM が特異である場合でも一意解への収束を保証する。
論文 参考訳(メタデータ) (2026-01-28T13:37:42Z) - Efficient Inference for Inverse Reinforcement Learning and Dynamic Discrete Choice Models [35.877107409163784]
逆強化学習(IRL)と動的離散選択(DDC)モデルは、観察された振る舞いを合理化する報酬関数を回復することにより、シーケンシャルな意思決定を説明する。
本研究では,広義の報酬依存関数に対して統計的に効率的な推論を行う半パラメトリックな逆強化学習フレームワークを開発した。
論文 参考訳(メタデータ) (2025-12-30T18:41:05Z) - Improving Stochastic Action-Constrained Reinforcement Learning via Truncated Distributions [11.34874640197711]
強化学習(RL)では、安全や行動関連性を確保するために、アクション空間にさらなる制約を加えることが有利であることが多い。
最近の研究は、政策手法に切り離された正規分布を用いることを提案する。
我々は, エントロピー, 対数確率, 勾配勾配などの重要な特性の正確な推定が, 行動制約付きRL設定において重要であることを論じる。
論文 参考訳(メタデータ) (2025-11-27T12:33:36Z) - Outcome-Based Online Reinforcement Learning: Algorithms and Fundamental Limits [58.63897489864948]
結果に基づくフィードバックによる強化学習は、根本的な課題に直面します。
適切なアクションにクレジットを割り当てるには?
本稿では,一般関数近似を用いたオンラインRLにおけるこの問題の包括的解析を行う。
論文 参考訳(メタデータ) (2025-05-26T17:44:08Z) - Learning Difference-of-Convex Regularizers for Inverse Problems: A Flexible Framework with Theoretical Guarantees [0.6906005491572401]
効果的な正則化の学習は、不適切な逆問題の解決に不可欠である。
本稿では,より広範な非正規化関数である差分DC関数が経験的性能を向上させることを示す。
論文 参考訳(メタデータ) (2025-02-01T00:40:24Z) - Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。
本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Efficient Off-Policy Learning for High-Dimensional Action Spaces [22.129001951441015]
既存の非政治強化学習アルゴリズムは、しばしば明示的な状態-作用-値関数表現に依存している。
本稿では,非政治的な深層強化学習に対する批判として,状態値関数のみを利用する効率的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-07T12:45:51Z) - ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。
提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2024-02-22T13:22:06Z) - Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - Actor Prioritized Experience Replay [0.0]
優先度付き体験再生(PER)では、エージェントは時間差誤差(TD)に比例した非一様確率でサンプリングされた遷移から学習することができる。
本稿では,アクター・クリティカルな手法に対する新しい経験リプレイ・サンプリング・フレームワークを紹介し,安定性の問題やPERの実証的性能の低下の背景にある最近の知見についても考察する。
我々の理論的主張を検証し、導入した手法が競合するアプローチを著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-09-01T15:27:46Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z) - Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for
Addressing Value Estimation Errors [13.534873779043478]
本稿では,Q値過大評価を緩和し,ポリシー性能を向上させるための分散型ソフトアクター・クリティック(DSAC)アルゴリズムを提案する。
我々は,MuJoCo連続制御タスクのスイート上でDSACを評価し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-01-09T02:27:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。