論文の概要: SACn: Soft Actor-Critic with n-step Returns
- arxiv url: http://arxiv.org/abs/2512.13165v1
- Date: Mon, 15 Dec 2025 10:23:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.620528
- Title: SACn: Soft Actor-Critic with n-step Returns
- Title(参考訳): SACn:n段リターンを持つソフトアクタークリティカル
- Authors: Jakub Łyskawa, Jakub Lewandowski, Paweł Wawrzyński,
- Abstract要約: SAC(Soft Actor-Critic)は、オンラインのオンラインモデルフリー強化学習(RL)手法の1つである。
SACは、通常の組み合わせが非政治アルゴリズムにバイアスをもたらすため、nステップのリターンと組み合わせることが難しいことが知られている。
本研究では,SACとnステップの戻り値を組み合わせ,この問題を克服する。
- 参考スコア(独自算出の注目度): 3.305353787222645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Soft Actor-Critic (SAC) is widely used in practical applications and is now one of the most relevant off-policy online model-free reinforcement learning (RL) methods. The technique of n-step returns is known to increase the convergence speed of RL algorithms compared to their 1-step returns-based versions. However, SAC is notoriously difficult to combine with n-step returns, since their usual combination introduces bias in off-policy algorithms due to the changes in action distribution. While this problem is solved by importance sampling, a method for estimating expected values of one distribution using samples from another distribution, importance sampling may result in numerical instability. In this work, we combine SAC with n-step returns in a way that overcomes this issue. We present an approach to applying numerically stable importance sampling with simplified hyperparameter selection. Furthermore, we analyze the entropy estimation approach of Soft Actor-Critic in the context of the n-step maximum entropy framework and formulate the $τ$-sampled entropy estimation to reduce the variance of the learning target. Finally, we formulate the Soft Actor-Critic with n-step returns (SAC$n$) algorithm that we experimentally verify on MuJoCo simulated environments.
- Abstract(参考訳): SAC (Soft Actor-Critic) は実践的な応用で広く使われており、現在ではオンラインのオンラインモデルフリー強化学習 (RL) 手法の1つとなっている。
n-step returnのテクニックは、1-step return-basedバージョンと比較してRLアルゴリズムの収束速度を向上させることが知られている。
しかし、SACは、通常の組み合わせは、行動分布の変化による非政治アルゴリズムのバイアスをもたらすため、nステップの戻り値と組み合わせることが難しいことが知られている。
この問題は、重要サンプリングによって解決されるが、別の分布からのサンプルを用いて、ある分布の期待値を推定する方法は、数値的不安定をもたらす可能性がある。
本研究では,SACとnステップの戻り値を組み合わせ,この問題を克服する。
本稿では, 簡易なハイパーパラメータ選択による数値的に安定な重要度サンプリング手法を提案する。
さらに,n段階の最大エントロピーフレームワークを用いて,ソフトアクター・クライトのエントロピー推定手法を解析し,$τ$sampledエントロピー推定を定式化し,学習対象の分散を低減する。
最後に,Soft Actor-Critic を n-step return (SAC$n$) アルゴリズムで定式化し,MuJoCo シミュレーション環境上で実験的に検証する。
関連論文リスト
- A Variance-Reduced Cubic-Regularized Newton for Policy Optimization [6.52142708235708]
既存の2階法は、しばしば、重要サンプリングに関する最適でない仮定や非現実的な仮定に悩まされる。
これらの制約を克服するため、分散規則化ニュートン還元推定器であるVR-CR-PNを提案する。
さらなる貢献として、期待された戻り関数に対する新しい水平線を導入し、アルゴリズムが一様サンプルの複雑さを達成できるようにする。
論文 参考訳(メタデータ) (2025-07-14T10:04:02Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Efficiently Escaping Saddle Points for Policy Optimization [43.636107996849375]
政策勾配(PG)は、拡張性と優れた性能のために強化学習に広く用いられている。
本稿では,ヘッセンベクトル積 (HVP) の形で二階情報を用いた分散還元二階法を提案し,サンプルの複雑さを$tildeO(epsilon-3)$とする近似二階定常点 (SOSP) に収束する。
論文 参考訳(メタデータ) (2023-11-15T12:36:45Z) - Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and
Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。
ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。
我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文 参考訳(メタデータ) (2021-10-20T02:25:25Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Sparse Bayesian Learning via Stepwise Regression [1.2691047660244335]
我々は、RMP(Relevance Matching Pursuit)と呼ばれるSBLのための座標加算アルゴリズムを提案する。
ノイズ分散パラメータがゼロになるにつれて、RMPはステップワイド回帰と驚くべき関係を示す。
ステップワイド回帰アルゴリズムの新たな保証を導き、RMPにも光を当てる。
論文 参考訳(メタデータ) (2021-06-11T00:20:27Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Incremental Without Replacement Sampling in Nonconvex Optimization [0.0]
経験的リスクに対する最小限の分解法は、一般に近似設定で分析される。
一方、このような手法の現代的な実装は漸進的であり、それらは置換せずにサンプリングに依存しており、利用可能な分析は極めて少ない。
我々は、多変数な漸進勾配スキームを解析することにより、後者の変分に対する収束保証を提供する。
論文 参考訳(メタデータ) (2020-07-15T09:17:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。