論文の概要: Revisiting Actor-Critic Methods in Discrete Action Off-Policy Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.09838v1
- Date: Thu, 11 Sep 2025 20:34:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.914971
- Title: Revisiting Actor-Critic Methods in Discrete Action Off-Policy Reinforcement Learning
- Title(参考訳): 離散行動型オフポリティ強化学習におけるアクター批判手法の再検討
- Authors: Reza Asad, Reza Babanezhad, Sharan Vaswani,
- Abstract要約: 本稿では,DSACを特例とするフレキシブル・オフ・ポリチック・アクター・クリティック・フレームワークを提案する。
我々のフレームワークは、批判更新にmステップのベルマン演算子を使用でき、標準ポリシー最適化手法とエントロピー正規化を組み合わせることができる。
実験により,これらの手法が標準的なAtariゲーム上でのDQNの性能にアプローチできることが実証された。
- 参考スコア(独自算出の注目度): 7.545486024172617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Value-based approaches such as DQN are the default methods for off-policy reinforcement learning with discrete-action environments such as Atari. Common policy-based methods are either on-policy and do not effectively learn from off-policy data (e.g. PPO), or have poor empirical performance in the discrete-action setting (e.g. SAC). Consequently, starting from discrete SAC (DSAC), we revisit the design of actor-critic methods in this setting. First, we determine that the coupling between the actor and critic entropy is the primary reason behind the poor performance of DSAC. We demonstrate that by merely decoupling these components, DSAC can have comparable performance as DQN. Motivated by this insight, we introduce a flexible off-policy actor-critic framework that subsumes DSAC as a special case. Our framework allows using an m-step Bellman operator for the critic update, and enables combining standard policy optimization methods with entropy regularization to instantiate the resulting actor objective. Theoretically, we prove that the proposed methods can guarantee convergence to the optimal regularized value function in the tabular setting. Empirically, we demonstrate that these methods can approach the performance of DQN on standard Atari games, and do so even without entropy regularization or explicit exploration.
- Abstract(参考訳): DQNのような価値に基づくアプローチは、Atariのような個別のアクション環境での非政治強化学習のデフォルトの方法である。
共通ポリシーベースの手法は、オン・ポリティィであり、オフ・ポリティィデータ(例えばPPO)から効果的に学習しないか、離散アクション・セッティング(例えばSAC)において経験的なパフォーマンスが低いかのいずれかである。
その結果、離散SAC (DSAC) から、この設定におけるアクター批判的手法の設計を再考する。
まず、アクターと批評家のエントロピーの結合が、DSACの貧弱な性能の背後にある主要な理由であると判断する。
これらのコンポーネントを分離するだけでDSACがDQNと同等の性能を持つことを示す。
この知見に触発され,DSACを特殊な事例とみなすフレキシブル・オフ・ポリティクス・アクター・クリティカルな枠組みを導入する。
本フレームワークでは,批判更新にmステップのベルマン演算子を使用でき,標準ポリシー最適化手法とエントロピー正規化を組み合わせることで,結果として得られるアクターの目的をインスタンス化することができる。
理論的には,提案手法は表の設定における最適正規化値関数への収束を保証することができる。
実験により,これらの手法は標準的なアタリゲーム上でのDQNの性能に近づき,エントロピー正則化や明示的な探索がなくても実現可能であることを示した。
関連論文リスト
- Causal Policy Learning in Reinforcement Learning: Backdoor-Adjusted Soft Actor-Critic [8.216159592001038]
DoSACは、因果介入推定によって隠れたコンバウンディングを補正するSACアルゴリズムの原則拡張である。
DoSACは、真の共同創設者や因果ラベルへのアクセスを必要とせずに介入ポリシーを見積もる。
整合した設定の下では、堅牢性、一般化、およびポリシーの信頼性を改善したベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-05T13:52:38Z) - PACER: A Fully Push-forward-based Distributional Reinforcement Learning Algorithm [28.48626438603237]
PACERは、流通批評家、俳優、サンプルベースの奨励者で構成されている。
プッシュフォワード演算子は、それぞれリターン分布とポリシーをモデル化するために、批評家とアクターの両方で利用される。
プッシュフォワードポリシー更新のために、サンプルベースのユーティリティ値ポリシー勾配を確立する。
論文 参考訳(メタデータ) (2023-06-11T09:45:31Z) - Coherent Soft Imitation Learning [17.345411907902932]
模倣学習法は、政策の行動クローニング(BC)や報酬の逆強化学習(IRL)を通じて専門家から学ぶ。
この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。
論文 参考訳(メタデータ) (2023-05-25T21:54:22Z) - Bounded Robustness in Reinforcement Learning via Lexicographic
Objectives [54.00072722686121]
強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。
本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。
本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:53:18Z) - Soft Actor-Critic with Cross-Entropy Policy Optimization [0.45687771576879593]
クロスエントロピーポリシー最適化(SAC-CEPO)を用いたソフトアクタ臨界法を提案する。
SAC-CEPOは、CEM(Cross-Entropy Method)を使用して、SACのポリシーネットワークを最適化する。
SAC-CEPOは元のSACと競合する性能を示す。
論文 参考訳(メタデータ) (2021-12-21T11:38:12Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Provable Benefits of Actor-Critic Methods for Offline Reinforcement
Learning [85.50033812217254]
アクター批判法はオフラインの強化学習に広く用いられているが、理論的にはそれほどよく理解されていない。
ペシミズムの原理を自然に取り入れた新しいオフラインアクター批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-19T17:27:29Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。