Fugu-MT 論文翻訳(概要): DSAC-C: Constrained Maximum Entropy for Robust Discrete Soft-Actor Critic

論文の概要: DSAC-C: Constrained Maximum Entropy for Robust Discrete Soft-Actor Critic

arxiv url: http://arxiv.org/abs/2310.17173v1
Date: Thu, 26 Oct 2023 05:54:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-27 21:53:33.842373
Title: DSAC-C: Constrained Maximum Entropy for Robust Discrete Soft-Actor Critic
Title（参考訳）: DSAC-C:ロバスト離散ソフトアクター批判のための制約付き最大エントロピー
Authors: Dexter Neo, Tsuhan Chen
Abstract要約: 本稿では,ソフトアクタ・クリティカル(SAC)アルゴリズムのファミリを新たに拡張する。我々は、最大エントロピー原理に基づいて、サロゲート批判政策から導かれるさらなる統計的制約により、離散SACをさらに改善することができると論じる。
参考スコア（独自算出の注目度）: 0.24475591916185496
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We present a novel extension to the family of Soft Actor-Critic (SAC) algorithms. We argue that based on the Maximum Entropy Principle, discrete SAC can be further improved via additional statistical constraints derived from a surrogate critic policy. Furthermore, our findings suggests that these constraints provide an added robustness against potential domain shifts, which are essential for safe deployment of reinforcement learning agents in the real-world. We provide theoretical analysis and show empirical results on low data regimes for both in-distribution and out-of-distribution variants of Atari 2600 games.
Abstract（参考訳）: 本稿では,ソフトアクタ・クリティカル(SAC)アルゴリズムのファミリを新たに拡張する。我々は,最大エントロピー原理に基づき,代理的批判政策に由来する追加の統計的制約により,離散的sacをさらに改善することができると主張する。さらに,これらの制約が,現実世界における強化学習エージェントの安全な展開に不可欠な,潜在的な領域シフトに対する強固性をもたらすことを示唆する。我々は,Atari 2600ゲームにおいて,分布内および分布外の両方の低データ構造に関する理論的解析を行い,実験結果を示す。

関連論文リスト

DR-SAC: Distributionally Robust Soft Actor-Critic for Reinforcement Learning under Uncertainty [21.542065840791683]
深層強化学習(英語版)(RL)は大きな成功を収めているが、実世界のシナリオにおけるその応用は、環境の不確実性に対する堅牢性の欠如によってしばしば妨げられている。本研究では,最新技術であるSoft Actor-Critic(SAC)アルゴリズムのロバスト性を高めるために,分散ロバストなSoft Actor-Critic(DR-SAC)を提案する。
論文参考訳（メタデータ） (2025-06-14T20:36:44Z)
Representation-based Reward Modeling for Efficient Safety Alignment of Large Language Model [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-13T06:40:34Z)
Tighter Performance Theory of FedExProx [85.92481138826949]
我々は最近提案した分散最適化法であるFedExProxを再検討し,外挿による並列アルゴリズムの収束特性の向上を図った。非強凸二次問題に対して、より厳密な線形収束率を確立するための新しい解析フレームワークを開発する。解析の応用性はPolyak-Lojasiewicz条件を満たす一般関数に拡張され、以前の強い凸解析よりも優れていた。
論文参考訳（メタデータ） (2024-10-20T11:53:25Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
Risk-sensitive Markov Decision Process and Learning under General Utility Functions [3.069335774032178]
強化学習(Reinforcement Learning, RL)は、様々な応用分野や理論的研究において大きな注目を集めている。意思決定プロセス(MDP)の枠組みにおいて,意思決定者が累積報酬の汎用機能を最適化しようとするシナリオを考える。累積報酬の空間上でのエプシロン被覆を用いた修正値反復アルゴリズムを提案する。シミュレータが存在しない場合,提案アルゴリズムは高信頼度探索法を用いて設計され,ほぼ最適ポリシーを同定する。
論文参考訳（メタデータ） (2023-11-22T18:50:06Z)
SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文参考訳（メタデータ） (2023-11-01T22:12:50Z)
Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文参考訳（メタデータ） (2023-10-03T10:52:21Z)
Probabilistic Constraint for Safety-Critical Reinforcement Learning [13.502008069967552]
確率的制約付き強化学習(RL)における安全な政策学習の課題について考察する。 SPG-Actor-Critic は SPG-REINFORCE よりも低い分散をもたらす。両SPGを利用して安全なポリシを学習できるSafe Primal-Dualアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-06-29T19:41:56Z)
PACER: A Fully Push-forward-based Distributional Reinforcement Learning Algorithm [28.48626438603237]
PACERは、流通批評家、俳優、サンプルベースの奨励者で構成されている。プッシュフォワード演算子は、それぞれリターン分布とポリシーをモデル化するために、批評家とアクターの両方で利用される。プッシュフォワードポリシー更新のために、サンプルベースのユーティリティ値ポリシー勾配を確立する。
論文参考訳（メタデータ） (2023-06-11T09:45:31Z)
Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。 P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。 P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文参考訳（メタデータ） (2022-05-24T06:15:51Z)
Soft Actor-Critic with Cross-Entropy Policy Optimization [0.45687771576879593]
クロスエントロピーポリシー最適化(SAC-CEPO)を用いたソフトアクタ臨界法を提案する。 SAC-CEPOは、CEM(Cross-Entropy Method)を使用して、SACのポリシーネットワークを最適化する。 SAC-CEPOは元のSACと競合する性能を示す。
論文参考訳（メタデータ） (2021-12-21T11:38:12Z)
Regularizing Variational Autoencoder with Diversity and Uncertainty Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文参考訳（メタデータ） (2021-10-24T07:58:13Z)
Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks [59.419152768018506]
最適ポリシーは必ずk-SP制約を満たすことを示す。本研究では,SP制約に違反するポリシーを完全に排除する代わりに,新たなコスト関数を提案する。また,MiniGrid,DeepMind Lab,Atari,Fetchを用いた実験の結果,提案手法はPPOを著しく改善することが示された。
論文参考訳（メタデータ） (2021-07-13T21:39:21Z)
DSAC: Distributional Soft Actor-Critic for Risk-Sensitive Reinforcement Learning [25.658136792327358]
本稿では,蓄積した報酬の分布情報の強度とエントロピー駆動探索を組み合わせたDSACアルゴリズムを提案する。 DSACはアクションと報酬の両方のランダム性をモデル化し、様々な連続制御タスクのベースラインパフォーマンスを上回る。 DSACがリスクニュートラルおよびリスクセンシティブな制御タスクにおいて,エージェント性能を向上させる効果を示す実験を行った。
論文参考訳（メタデータ） (2020-04-30T02:23:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。