論文の概要: Risk-Sensitive Soft Actor-Critic for Robust Deep Reinforcement Learning
under Distribution Shifts
- arxiv url: http://arxiv.org/abs/2402.09992v1
- Date: Thu, 15 Feb 2024 14:55:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 15:27:28.244197
- Title: Risk-Sensitive Soft Actor-Critic for Robust Deep Reinforcement Learning
under Distribution Shifts
- Title(参考訳): 分散シフト下におけるロバスト深部強化学習のためのリスク感性ソフトアクタクリティカル
- Authors: Tobias Enders, James Harrison, Maximilian Schiffer
- Abstract要約: 本研究では、文脈多段階最適化問題における分散シフトに対する深層強化学習アルゴリズムの堅牢性について検討する。
提案アルゴリズムは,リスクニュートラルなソフトアクター・クライブや,頑健な深層強化学習のための2つのベンチマーク手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 11.765000124617186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the robustness of deep reinforcement learning algorithms against
distribution shifts within contextual multi-stage stochastic combinatorial
optimization problems from the operations research domain. In this context,
risk-sensitive algorithms promise to learn robust policies. While this field is
of general interest to the reinforcement learning community, most studies
up-to-date focus on theoretical results rather than real-world performance.
With this work, we aim to bridge this gap by formally deriving a novel
risk-sensitive deep reinforcement learning algorithm while providing numerical
evidence for its efficacy. Specifically, we introduce discrete Soft
Actor-Critic for the entropic risk measure by deriving a version of the Bellman
equation for the respective Q-values. We establish a corresponding policy
improvement result and infer a practical algorithm. We introduce an environment
that represents typical contextual multi-stage stochastic combinatorial
optimization problems and perform numerical experiments to empirically validate
our algorithm's robustness against realistic distribution shifts, without
compromising performance on the training distribution. We show that our
algorithm is superior to risk-neutral Soft Actor-Critic as well as to two
benchmark approaches for robust deep reinforcement learning. Thereby, we
provide the first structured analysis on the robustness of reinforcement
learning under distribution shifts in the realm of contextual multi-stage
stochastic combinatorial optimization problems.
- Abstract(参考訳): 本研究では,多段階確率的組合せ最適化問題における分散シフトに対する深層強化学習アルゴリズムの堅牢性を検討した。
この文脈では、リスクに敏感なアルゴリズムは堅牢なポリシーを学ぶことを約束する。
この分野は強化学習コミュニティに一般的に関心があるが、ほとんどの研究は現実世界のパフォーマンスよりも理論的な結果に焦点を当てている。
本研究では,リスクに敏感な新しい深層強化学習アルゴリズムを形式的に導出し,その効果を数値的に証明することで,このギャップを埋めることを目的とする。
具体的には,各q値に対するベルマン方程式のバージョンを導出することにより,エントロピー的リスク測度に対する離散的ソフト・アクタ-クリティックを導入する。
我々は、対応する政策改善結果を確立し、実用的なアルゴリズムを推測する。
本稿では,典型的な文脈的多段階確率的組合せ最適化問題を表現する環境を導入し,実分布シフトに対するアルゴリズムのロバスト性を検証する数値実験を行い,学習分布の性能を損なうことなく検証する。
提案アルゴリズムは,リスクニュートラルなソフトアクター・クライブや,頑健な深層強化学習のための2つのベンチマーク手法よりも優れていることを示す。
そこで我々は,文脈的多段階確率的組合せ最適化問題の領域における分散シフト下での強化学習の堅牢性に関する最初の構造化解析を行った。
関連論文リスト
- Regularization for Adversarial Robust Learning [18.46110328123008]
我々は,$phi$-divergence正規化を分散ロバストなリスク関数に組み込む,対角訓練のための新しい手法を開発した。
この正規化は、元の定式化と比較して計算の顕著な改善をもたらす。
本研究では,教師付き学習,強化学習,文脈学習において提案手法の有効性を検証し,様々な攻撃に対して最先端の性能を示す。
論文 参考訳(メタデータ) (2024-08-19T03:15:41Z) - Distributional Bellman Operators over Mean Embeddings [37.5480897544168]
本研究では,帰還分布の有限次元平均埋め込みを学習し,分布強化学習のための新しい枠組みを提案する。
動的プログラミングと時間差学習のための新しいアルゴリズムをこのフレームワークに基づいて提案する。
論文 参考訳(メタデータ) (2023-12-09T11:36:14Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Multivariate Systemic Risk Measures and Computation by Deep Learning
Algorithms [63.03966552670014]
本稿では,主観的最適度と関連するリスク割り当ての公平性に着目し,重要な理論的側面について論じる。
私たちが提供しているアルゴリズムは、予備項の学習、二重表現の最適化、およびそれに対応する公正なリスク割り当てを可能にします。
論文 参考訳(メタデータ) (2023-02-02T22:16:49Z) - Risk-Sensitive Reinforcement Learning with Exponential Criteria [0.0]
我々は、堅牢な強化学習ポリシーを定義し、リスクに敏感な強化学習問題を定式化し、それらを近似する。
本稿では,近似更新を用いた乗算ベルマン方程式の解法に基づく新しいオンラインアクター・クリティカルアルゴリズムを提案する。
シミュレーション実験により,提案手法の実装,性能,ロバスト性を評価した。
論文 参考訳(メタデータ) (2022-12-18T04:44:38Z) - Conditionally Elicitable Dynamic Risk Measures for Deep Reinforcement
Learning [0.0]
我々は,ディープニューラルネットワークを用いた動的スペクトルリスク尺度のクラスを推定する効率的な手法を開発した。
また,リスクに敏感なアクター・クリティック・アルゴリズムも開発しており,追加のネスト・トランジションを必要としない。
論文 参考訳(メタデータ) (2022-06-29T14:11:15Z) - Distributed Statistical Min-Max Learning in the Presence of Byzantine
Agents [34.46660729815201]
本稿では,ビザンチンの敵対的エージェントと競合する新たな課題に焦点をあて,マルチエージェントのmin-max学習問題を考察する。
我々の主な貢献は、滑らかな凸凹関数と滑らかな凸凸凸関数に対する頑健な外勾配アルゴリズムのクリップ解析を提供することである。
我々の利率はほぼ最適であり、敵の汚職の影響と非汚職エージェント間の協力の利益の両方を明らかにしている。
論文 参考訳(メタデータ) (2022-04-07T03:36:28Z) - Adversarial Robustness with Semi-Infinite Constrained Learning [177.42714838799924]
入力に対する深い学習は、安全クリティカルなドメインでの使用に関して深刻な疑問を提起している。
本稿では,この問題を緩和するために,Langevin Monte Carlo のハイブリッドトレーニング手法を提案する。
当社のアプローチは、最先端のパフォーマンスと堅牢性の間のトレードオフを軽減することができることを示す。
論文 参考訳(メタデータ) (2021-10-29T13:30:42Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。