論文の概要: RMIX: Learning Risk-Sensitive Policies for Cooperative Reinforcement
Learning Agents
- arxiv url: http://arxiv.org/abs/2102.08159v1
- Date: Tue, 16 Feb 2021 13:58:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-18 11:30:08.402949
- Title: RMIX: Learning Risk-Sensitive Policies for Cooperative Reinforcement
Learning Agents
- Title(参考訳): RMIX: 協調強化学習エージェントの学習リスク感知政策
- Authors: Wei Qiu, Xinrun Wang, Runsheng Yu, Xu He, Rundong Wang, Bo An,
Svetlana Obraztsova, Zinovi Rabinovich
- Abstract要約: 本研究では, 個人Q値の学習分布に対して, CVaR (Conditional Value at Risk) を用いた新しいMARL法を提案する。
本手法は、StarCraft IIタスクに挑む最先端の手法を大幅に上回ることを示す。
- 参考スコア(独自算出の注目度): 40.51184157538392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current value-based multi-agent reinforcement learning methods optimize
individual Q values to guide individuals' behaviours via centralized training
with decentralized execution (CTDE). However, such expected, i.e.,
risk-neutral, Q value is not sufficient even with CTDE due to the randomness of
rewards and the uncertainty in environments, which causes the failure of these
methods to train coordinating agents in complex environments. To address these
issues, we propose RMIX, a novel cooperative MARL method with the Conditional
Value at Risk (CVaR) measure over the learned distributions of individuals' Q
values. Specifically, we first learn the return distributions of individuals to
analytically calculate CVaR for decentralized execution. Then, to handle the
temporal nature of the stochastic outcomes during executions, we propose a
dynamic risk level predictor for risk level tuning. Finally, we optimize the
CVaR policies with CVaR values used to estimate the target in TD error during
centralized training and the CVaR values are used as auxiliary local rewards to
update the local distribution via Quantile Regression loss. Empirically, we
show that our method significantly outperforms state-of-the-art methods on
challenging StarCraft II tasks, demonstrating enhanced coordination and
improved sample efficiency.
- Abstract(参考訳): 現在の価値に基づくマルチエージェント強化学習手法は,分散実行(ctde)による集中型トレーニングを通じて個人の行動を指導するために,個別のq値を最適化する。
しかし、このような予想、すなわちリスクニュートラルなQ値は、報酬のランダム性や環境の不確実性のためにCTDEでも十分ではないため、複雑な環境での調整エージェントの訓練にこれらの方法の失敗を引き起こします。
そこで本研究では, 学習したQ値の分布について, CVaR(Conditional Value at Risk)を指標とした新たな協調的MARL法RMIXを提案する。
具体的には、まず個人の戻り分布を学習し、分散実行のためのCVaRを解析的に計算する。
そこで,実行時の確率的結果の時間的性質を扱うために,リスクレベルチューニングのための動的リスクレベル予測器を提案する。
最後に,集中トレーニング中のTD誤差のターゲット推定にCVaR値を用いてCVaRポリシを最適化し,CVaR値を補助的局所報酬として,量子回帰損失による局所分布の更新を行う。
実験により,本手法はStarCraft IIタスクの課題に対して,最先端の手法よりも優れ,協調性の向上とサンプル効率の向上を実証した。
関連論文リスト
- Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Safe Deployment for Counterfactual Learning to Rank with Exposure-Based
Risk Minimization [63.93275508300137]
本稿では,安全な配置を理論的に保証する新たなリスク認識型対実学習ランク法を提案する。
提案手法の有効性を実験的に検証し,データが少ない場合の動作不良の早期回避に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-26T15:54:23Z) - Risk-Aware Distributed Multi-Agent Reinforcement Learning [8.287693091673658]
我々は,リスク認識行動の学習により,未知環境における意思決定問題を解決するために,分散MARLアプローチを開発した。
次に,CVaR QD-Learningアルゴリズムと呼ばれる分散MARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-04T17:56:44Z) - Taming Multi-Agent Reinforcement Learning with Estimator Variance
Reduction [12.94372063457462]
分散実行(CT-DE)による集中トレーニングは、多くの主要なマルチエージェント強化学習(MARL)アルゴリズムの基礎となっている。
特定の状態における共同行動の単一のサンプルから学ぶことに依存しているため、これは重大な欠点に悩まされる。
本稿では,アクター・クリティカルなMARL法に対応する拡張ツールを提案する。
論文 参考訳(メタデータ) (2022-09-02T13:44:00Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Risk-Aware Learning for Scalable Voltage Optimization in Distribution
Grids [19.0428894025206]
本稿では、反応電力予測や電圧偏差に伴う潜在的なリスクを考慮し、学習可能なアプローチを改善することを目的とする。
具体的には,最悪の事例のみに基づいて,条件付きリスク損失(CVaR)を用いて,そのようなリスクを測定することを提案する。
そこで本研究では, CVaR損失目標に基づくトレーニングプロセスを加速するために, 最悪のサンプルを含む可能性が低いミニバッチを選択することを提案する。
論文 参考訳(メタデータ) (2021-10-04T15:00:13Z) - Learning Calibrated Uncertainties for Domain Shift: A Distributionally
Robust Learning Approach [150.8920602230832]
ドメインシフトの下で校正された不確実性を学習するためのフレームワークを提案する。
特に、密度比推定は、ターゲット(テスト)サンプルの近さをソース(トレーニング)分布に反映する。
提案手法は下流タスクに有利な校正不確実性を生成する。
論文 参考訳(メタデータ) (2020-10-08T02:10:54Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for
Addressing Value Estimation Errors [13.534873779043478]
本稿では,Q値過大評価を緩和し,ポリシー性能を向上させるための分散型ソフトアクター・クリティック(DSAC)アルゴリズムを提案する。
我々は,MuJoCo連続制御タスクのスイート上でDSACを評価し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-01-09T02:27:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。