論文の概要: CARL: Conditional-value-at-risk Adversarial Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2109.09470v1
- Date: Mon, 20 Sep 2021 12:28:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 23:31:00.696516
- Title: CARL: Conditional-value-at-risk Adversarial Reinforcement Learning
- Title(参考訳): CARL:条件-値-リスク-リスク強化学習
- Authors: M. Godbout, M. Heuillet, S. Chandra, R. Bhati, A. Durand
- Abstract要約: 本稿では,CARL(Conditional Value-at-risk Adversarial Reinforcement Learning)と呼ばれるリスク回避強化学習手法を提案する。
我々の知る限りでは、CARLは条件付きバリュー・アット・リスク(CVaR)RLの最初のゲーム定式化である。
我々は,CARLゲームを解くことで,玩具グリッド環境におけるリスク回避行動がもたらされることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we present a risk-averse reinforcement learning (RL) method
called Conditional value-at-risk Adversarial Reinforcement Learning (CARL). To
the best of our knowledge, CARL is the first game formulation for Conditional
Value-at-Risk (CVaR) RL. The game takes place between a policy player and an
adversary that perturbs the policy player's state transitions given a finite
budget. We prove that, at the maximin equilibrium point, the learned policy is
CVaR optimal with a risk tolerance explicitly related to the adversary's
budget. We provide a gradient-based training procedure to solve CARL by
formulating it as a zero-sum Stackelberg Game, enabling the use of deep
reinforcement learning architectures and training algorithms. Finally, we show
that solving the CARL game does lead to risk-averse behaviour in a toy grid
environment, also confirming that an increased adversary produces increasingly
cautious policies.
- Abstract(参考訳): 本稿では,CARL(Conditional value-at-risk Adversarial Reinforcement Learning)と呼ばれるリスク回避強化学習手法を提案する。
我々の知る限りでは、CARLは条件付きバリュー・アット・リスク(CVaR)RLの最初のゲーム定式化である。
ゲームは、ポリシープレイヤーと敵の間で行われ、有限の予算でポリシープレイヤーの状態遷移を妨害する。
我々は、最大均衡点において、学習方針がCVaR最適であり、敵の予算に明示的に関連していることを証明した。
カールをゼロサム・スタックルバーグゲームとして定式化し,深層強化学習アーキテクチャと学習アルゴリズムの利用を可能にし,グラデーションに基づく学習手順を提案する。
最後に,CARLゲームを解くことで,玩具グリッド環境におけるリスク回避行動がもたらされることを示した。
関連論文リスト
- TRC: Trust Region Conditional Value at Risk for Safe Reinforcement
Learning [16.176812250762666]
TRCと呼ばれるCVaR制約を持つ信頼領域ベースの安全なRL法を提案する。
まずCVaR上の上界を導出し、その後、信頼領域における微分可能な形で上界を近似する。
他の安全なRL法と比較して、全ての実験で制約を満たす一方、性能は1.93倍向上する。
論文 参考訳(メタデータ) (2023-12-01T04:40:47Z) - A Zeroth-Order Momentum Method for Risk-Averse Online Convex Games [15.620924879200793]
エージェントのゴールは,コストが著しく高くなるリスクを最小限に抑えることにある。
CVaRを推定するためにバンドフィードバックを使用する際の大きな課題は、エージェントが自身のコスト値にしかアクセスできないことである。
本稿では,コスト値の履歴情報を完全に活用した,新たなリスク回避学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-06T22:28:34Z) - Decentralized Optimistic Hyperpolicy Mirror Descent: Provably No-Regret
Learning in Markov Games [95.10091348976779]
我々はマルコフゲームにおいて、非定常的でおそらく敵対的な相手と遊べる単一のエージェントを制御する分散ポリシー学習について研究する。
我々は、新しいアルゴリズム、アンダーラインデ集中型アンダーラインハイプラインRpolicy munderlineIrror deunderlineScent (DORIS)を提案する。
DORISは、一般的な関数近似の文脈で$sqrtK$-regretを達成する。
論文 参考訳(メタデータ) (2022-06-03T14:18:05Z) - SAAC: Safe Reinforcement Learning as an Adversarial Game of
Actor-Critics [11.132587007566329]
そこで我々は,SAACと呼ばれるソフトアクター批判フレームワークを開発した。
SAACでは、RLエージェントが制約値関数の最大化を目標として、安全制約を破ることを目的としている。
安全性の制約を満たすために,SAACはより早く収束し,効率が良く,障害が少なくなることを示す。
論文 参考訳(メタデータ) (2022-04-20T12:32:33Z) - Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文 参考訳(メタデータ) (2021-06-10T06:29:59Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - Independent Policy Gradient Methods for Competitive Reinforcement
Learning [62.91197073795261]
2つのエージェントによる競争強化学習環境における独立学習アルゴリズムに対するグローバル・非漸近収束保証を得る。
本研究は,両選手がタンデムで政策勾配法を実行すると,学習率を2回ルールに従えば,その政策はゲームの最小均衡に収束することを示す。
論文 参考訳(メタデータ) (2021-01-11T23:20:42Z) - Cautious Adaptation For Reinforcement Learning in Safety-Critical
Settings [129.80279257258098]
都市運転のような現実の安全クリティカルな目標設定における強化学習(RL)は危険である。
非安全クリティカルな「ソース」環境でエージェントが最初に訓練する「安全クリティカル適応」タスクセットを提案する。
多様な環境における事前経験がリスクを見積もるためにエージェントに装備するという直感に基づくソリューションアプローチであるCARLを提案する。
論文 参考訳(メタデータ) (2020-08-15T01:40:59Z) - Bayesian Robust Optimization for Imitation Learning [34.40385583372232]
逆強化学習は、パラメータ化された報酬関数を学習することにより、新しい状態への一般化を可能にする。
既存のIRLに基づく安全な模倣学習アプローチは、maxminフレームワークを使用してこの不確実性に対処する。
BROILは、リターン最大化とリスク最小化の動作を補間する自然な方法を提供する。
論文 参考訳(メタデータ) (2020-07-24T01:52:11Z) - Reinforcement Learning [36.664136621546575]
強化学習(Reinforcement Learning, RL)は適応制御のための一般的なフレームワークであり、多くの領域で効率的であることが証明されている。
本章では、RLの基本的枠組みを示し、優れた政策を学ぶために開発された2つのアプローチのメインファミリーを思い出す。
論文 参考訳(メタデータ) (2020-05-29T06:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。