論文の概要: Bidirectional Soft Actor-Critic: Leveraging Forward and Reverse KL Divergence for Efficient Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.01639v1
- Date: Mon, 02 Jun 2025 13:15:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.39608
- Title: Bidirectional Soft Actor-Critic: Leveraging Forward and Reverse KL Divergence for Efficient Reinforcement Learning
- Title(参考訳): 双方向ソフトアクター批判:効率的な強化学習のためのフォワードとリバースKLの分岐
- Authors: Yixian Zhang, Huaze Tang, Changxu Wei, Wenbo Ding,
- Abstract要約: SAC(Soft Actor-Critic)アルゴリズムは伝統的に、ポリシー更新の逆KL(Kulback-Leibler)の分散を最小化することに頼っている。
本稿では,SAC内における前方KL分岐の代替的利用について検討する。
提案アルゴリズムは,まず明示的な前方KLプロジェクションを用いてポリシを初期化し,次に逆KLの発散を最適化してこれを洗練する。
- 参考スコア(独自算出の注目度): 3.7228978486172806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Soft Actor-Critic (SAC) algorithm, a state-of-the-art method in maximum entropy reinforcement learning, traditionally relies on minimizing reverse Kullback-Leibler (KL) divergence for policy updates. However, this approach leads to an intractable optimal projection policy, necessitating gradient-based approximations that can suffer from instability and poor sample efficiency. This paper investigates the alternative use of forward KL divergence within SAC. We demonstrate that for Gaussian policies, forward KL divergence yields an explicit optimal projection policy -- corresponding to the mean and variance of the target Boltzmann distribution's action marginals. Building on the distinct advantages of both KL directions, we propose Bidirectional SAC, an algorithm that first initializes the policy using the explicit forward KL projection and then refines it by optimizing the reverse KL divergence. Comprehensive experiments on continuous control benchmarks show that Bidirectional SAC significantly outperforms standard SAC and other baselines, achieving up to a $30\%$ increase in episodic rewards, alongside enhanced sample efficiency.
- Abstract(参考訳): 最大エントロピー強化学習における最先端手法であるSoft Actor-Critic (SAC) アルゴリズムは、伝統的にポリシー更新において逆のKullback-Leibler (KL) 分岐を最小化することに頼っている。
しかし、このアプローチは、不安定性とサンプル効率の低下に悩まされる勾配に基づく近似を必要とする、難解な最適射影ポリシーをもたらす。
本稿では,SAC内における前方KL分岐の代替利用について検討する。
ガウスの政策に対して、前方KLの発散は、目標ボルツマン分布の作用限界の平均と分散に対応する、明示的な最適射影ポリシーをもたらすことを実証する。
両KL方向の異なる利点を生かし、明示的な前方KLプロジェクションを用いてポリシを初期化し、逆KLの発散を最適化してこれを洗練するアルゴリズムである双方向SACを提案する。
連続制御ベンチマークに関する総合的な実験によると、Bidirectional SACは標準のSACやその他のベースラインを著しく上回り、サンプル効率の向上とともに30 %以上の報酬を達成している。
関連論文リスト
- On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning [50.856589224454055]
政策勾配アルゴリズムは大規模言語モデル(LLM)の推論能力の向上に成功している。
オンライン強化学習環境におけるKL正規化政策勾配法を導出・解析するためのフレームワークである正則化政策勾配(RPG)を提案する。
RPGは、GRPO、REINFORCE++、DAPOといった強力なベースラインと比較して、トレーニングの安定性とパフォーマンスの面で改善あるいは競争力のある結果を示している。
論文 参考訳(メタデータ) (2025-05-23T06:01:21Z) - Rethinking Soft Actor-Critic in High-Dimensional Action Spaces: The Cost of Ignoring Distribution Shift [20.942509669153413]
Soft Actor-Criticアルゴリズムは、様々な強化学習タスクにおいて、堅牢な性能で広く認識されている。
この分布シフトの包括的理論的および実証的な分析を行う。
本報告では,SACの性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-10-22T06:46:28Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive Advantages [37.12048108122337]
本稿では, アクター批判的深層強化学習におけるベイズ推定の近似に向けてのステップを提案する。
Asynchronous Advantage Actor-Critic (A3C)アルゴリズムの3つの変更によって実装されている。
論文 参考訳(メタデータ) (2023-06-02T11:37:22Z) - Soft Actor-Critic with Cross-Entropy Policy Optimization [0.45687771576879593]
クロスエントロピーポリシー最適化(SAC-CEPO)を用いたソフトアクタ臨界法を提案する。
SAC-CEPOは、CEM(Cross-Entropy Method)を使用して、SACのポリシーネットワークを最適化する。
SAC-CEPOは元のSACと競合する性能を示す。
論文 参考訳(メタデータ) (2021-12-21T11:38:12Z) - Greedification Operators for Policy Optimization: Investigating Forward
and Reverse KL Divergences [33.471102483095315]
パラメータ化ポリシとボルツマン分布のKL分散を作用値上で低減する際の近似グリード化について検討する。
逆KLは、より強力な政策改善保証を有するが、前方KLの削減は、より悪い政策をもたらす可能性があることを示す。
離散アクション設定やベンチマーク問題に有意な差は見られなかった。
論文 参考訳(メタデータ) (2021-07-17T17:09:18Z) - Variational Refinement for Importance Sampling Using the Forward
Kullback-Leibler Divergence [77.06203118175335]
変分推論(VI)はベイズ推論における正確なサンプリングの代替として人気がある。
重要度サンプリング(IS)は、ベイズ近似推論手順の推定を微調整し、偏りを逸脱するためにしばしば用いられる。
近似ベイズ推論のための最適化手法とサンプリング手法の新たな組み合わせを提案する。
論文 参考訳(メタデータ) (2021-06-30T11:00:24Z) - An Improved LSHADE-RSP Algorithm with the Cauchy Perturbation:
iLSHADE-RSP [9.777183117452235]
この手法は、コーシー分布の長い尾を持つ性質を採用することにより、探索を向上させることができる。
従来の手法と比較して,提案手法はジャンプ率に基づいて,突然変異ベクトルの代わりにターゲットベクトルを摂動する。
改良されたLSHADE-RSPの最適化性能を評価するために、30の異なる難解な最適化問題を用いている。
論文 参考訳(メタデータ) (2020-06-04T00:03:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。