論文の概要: Band-limited Soft Actor Critic Model
- arxiv url: http://arxiv.org/abs/2006.11431v1
- Date: Fri, 19 Jun 2020 22:52:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 03:20:37.217029
- Title: Band-limited Soft Actor Critic Model
- Title(参考訳): バンド制限ソフトアクタ批評家モデル
- Authors: Miguel Campo, Zhengxing Chen, Luke Kung, Kittipat Virochsiri and
Jianyu Wang
- Abstract要約: SAC(Soft Actor Critic)アルゴリズムは複雑なシミュレーション環境において顕著な性能を示す。
我々は、このアイデアをさらに一歩進めて、対象の批判的空間分解能を人工的にバンドリミットする。
線形の場合、閉形式解を導出し、バンドリミットが状態-作用値近似の低周波数成分間の相互依存性を減少させることを示す。
- 参考スコア(独自算出の注目度): 15.11069042369131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Soft Actor Critic (SAC) algorithms show remarkable performance in complex
simulated environments. A key element of SAC networks is entropy
regularization, which prevents the SAC actor from optimizing against fine
grained features, oftentimes transient, of the state-action value function.
This results in better sample efficiency during early training. We take this
idea one step further by artificially bandlimiting the target critic spatial
resolution through the addition of a convolutional filter. We derive the closed
form solution in the linear case and show that bandlimiting reduces the
interdependency between the low and high frequency components of the
state-action value approximation, allowing the critic to learn faster. In
experiments, the bandlimited SAC outperformed the classic twin-critic SAC in a
number of Gym environments, and displayed more stability in returns. We derive
novel insights about SAC by adding a stochastic noise disturbance, a technique
that is increasingly being used to learn robust policies that transfer well to
the real world counterparts.
- Abstract(参考訳): SAC(Soft Actor Critic)アルゴリズムは複雑なシミュレーション環境において顕著な性能を示す。
SACネットワークの鍵となる要素はエントロピー正規化であり、これはSACアクターが状態-作用値関数の微細な特徴(しばしば過渡的)に対して最適化することを防ぐ。
これにより、早期訓練時のサンプル効率が向上する。
この考え方をさらに一歩進めて,畳み込みフィルタを付加することで,対象とする批判的空間分解能を人工的にバンドリミットする。
線形の場合、閉形式解を導出し、バンドリミットにより状態-作用値近似の低周波成分と高周波成分の相互依存性が減少し、批判者がより速く学習できることを示す。
実験では、バンドリミテッドSACはいくつかのガイム環境において古典的な双極性SACよりも優れ、リターンの安定性が向上した。
SACに関する新しい知見は、確率的ノイズ障害を加えることによって導き出され、これは、現実の世界にうまく移行する堅牢なポリシーを学ぶために、ますます使われている技術である。
関連論文リスト
- Soft Actor-Critic with Beta Policy via Implicit Reparameterization Gradients [0.0]
ソフトアクター批判(SAC)は、政策最適化と非政治学習を組み合わせることで、サンプル効率を低下させる。
勾配がreパラメータ化トリックによって計算できる分布に限られる。
シミュレーションロボットの移動環境におけるベータポリシーにより,SACの訓練にこの手法を拡張した。
実験結果から,ベータポリシが通常のポリシよりも優れ,通常のポリシと同等であることから,ベータポリシが有効な代替手段であることが示唆された。
論文 参考訳(メタデータ) (2024-09-08T04:30:51Z) - RLSAC: Reinforcement Learning enhanced Sample Consensus for End-to-End
Robust Estimation [74.47709320443998]
RLSAC(Reinforcement Learning enhanced SAmple Consensus framework for end-to-end robust estimation)を提案する。
RLSACはグラフニューラルネットワークを用いて、データとメモリの特徴の両方を利用して探索方向を案内し、次の最小セットをサンプリングする。
実験の結果, RLSACは特徴から学習し, より優れた仮説を徐々に探求できることがわかった。
論文 参考訳(メタデータ) (2023-08-10T03:14:19Z) - PAC-Bayesian Soft Actor-Critic Learning [9.752336113724928]
アクター批判アルゴリズムは、強化学習(RL)と政策評価と2つの関数近似器による改善という2つの目標に対処する。
我々は,このボトルネックに,Soft Actor-Critic (SAC) アルゴリズムの批判的トレーニング目標として,既存の確率的近似(PAC)ベイズ境界を初めて採用することによって対処する。
論文 参考訳(メタデータ) (2023-01-30T10:44:15Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - Revisiting Discrete Soft Actor-Critic [42.88653969438699]
本稿では,最新技術強化学習(RL)アルゴリズムであるSoft Actor-Critic(SAC)の適応性について検討する。
エントロピーのペナルティとQクリップを用いたQ-ラーニングを両立させるアルゴリズムであるSDSAC(Stable Discrete SAC)を提案する。
論文 参考訳(メタデータ) (2022-09-21T03:01:36Z) - Target Entropy Annealing for Discrete Soft Actor-Critic [64.71285903492183]
SAC(Soft Actor-Critic)は、継続的なアクション設定のための最先端のアルゴリズムである。
SACが離散領域でうまく機能しないことを示す経験的証拠は、直感的ではない。
SACに適用したターゲットエントロピーパラメータのアニール法であるTarget Entropy Scheduled SAC (TES-SAC)を提案する。
我々は,Atari 2600 のゲームと異なる目標エントロピー SAC を比較し,スケジューリングが SAC に与える影響を解析した。
論文 参考訳(メタデータ) (2021-12-06T08:21:27Z) - Investigating Tradeoffs in Real-World Video Super-Resolution [90.81396836308085]
実世界のビデオ超解像(VSR)モデルは、一般化性を改善するために様々な劣化で訓練されることが多い。
最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる劣化手法を提案する。
そこで本研究では,多種多様な実世界の低品質映像系列を含むビデオLQデータセットを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:58:21Z) - Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with
On-Policy Experience [9.06635747612495]
ソフト・アクター・クリティカル(Soft Actor-Critic, SAC)は、アクター・アクター・アクターの強化学習アルゴリズムである。
SACは、期待されるリターンとエントロピーの間のトレードオフを最大化することでポリシーを訓練する。
一連の連続制御ベンチマークタスクで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-09-24T06:46:28Z) - TASAC: Temporally Abstract Soft Actor-Critic for Continuous Control [28.534585378574143]
TASACは、ソフトアクタークリティカルフレームワークに閉ループ時間抽象化を組み込んだオフポリシーRLアルゴリズムである。
従来のオフポリシーRLアルゴリズムと比較して2つの利点があります。永続的探索とTD学習のための偏見のないマルチステップQ演算子です。
論文 参考訳(メタデータ) (2021-04-13T21:24:44Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z) - Non-Cooperative Game Theory Based Rate Adaptation for Dynamic Video
Streaming over HTTP [89.30855958779425]
Dynamic Adaptive Streaming over HTTP (DASH)は、新興かつ有望なマルチメディアストリーミング技術であることを示した。
本稿では,サーバの限られた輸出帯域幅をマルチユーザに対して最適に割り当てるアルゴリズムを提案し,その品質・オブ・エクスペリエンス(QoE)を公平性で最大化する。
論文 参考訳(メタデータ) (2019-12-27T01:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。