論文の概要: RMIX: Learning Risk-Sensitive Policies for Cooperative Reinforcement
Learning Agents
- arxiv url: http://arxiv.org/abs/2102.08159v1
- Date: Tue, 16 Feb 2021 13:58:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-18 11:30:08.402949
- Title: RMIX: Learning Risk-Sensitive Policies for Cooperative Reinforcement
Learning Agents
- Title(参考訳): RMIX: 協調強化学習エージェントの学習リスク感知政策
- Authors: Wei Qiu, Xinrun Wang, Runsheng Yu, Xu He, Rundong Wang, Bo An,
Svetlana Obraztsova, Zinovi Rabinovich
- Abstract要約: 本研究では, 個人Q値の学習分布に対して, CVaR (Conditional Value at Risk) を用いた新しいMARL法を提案する。
本手法は、StarCraft IIタスクに挑む最先端の手法を大幅に上回ることを示す。
- 参考スコア(独自算出の注目度): 40.51184157538392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current value-based multi-agent reinforcement learning methods optimize
individual Q values to guide individuals' behaviours via centralized training
with decentralized execution (CTDE). However, such expected, i.e.,
risk-neutral, Q value is not sufficient even with CTDE due to the randomness of
rewards and the uncertainty in environments, which causes the failure of these
methods to train coordinating agents in complex environments. To address these
issues, we propose RMIX, a novel cooperative MARL method with the Conditional
Value at Risk (CVaR) measure over the learned distributions of individuals' Q
values. Specifically, we first learn the return distributions of individuals to
analytically calculate CVaR for decentralized execution. Then, to handle the
temporal nature of the stochastic outcomes during executions, we propose a
dynamic risk level predictor for risk level tuning. Finally, we optimize the
CVaR policies with CVaR values used to estimate the target in TD error during
centralized training and the CVaR values are used as auxiliary local rewards to
update the local distribution via Quantile Regression loss. Empirically, we
show that our method significantly outperforms state-of-the-art methods on
challenging StarCraft II tasks, demonstrating enhanced coordination and
improved sample efficiency.
- Abstract(参考訳): 現在の価値に基づくマルチエージェント強化学習手法は,分散実行(ctde)による集中型トレーニングを通じて個人の行動を指導するために,個別のq値を最適化する。
しかし、このような予想、すなわちリスクニュートラルなQ値は、報酬のランダム性や環境の不確実性のためにCTDEでも十分ではないため、複雑な環境での調整エージェントの訓練にこれらの方法の失敗を引き起こします。
そこで本研究では, 学習したQ値の分布について, CVaR(Conditional Value at Risk)を指標とした新たな協調的MARL法RMIXを提案する。
具体的には、まず個人の戻り分布を学習し、分散実行のためのCVaRを解析的に計算する。
そこで,実行時の確率的結果の時間的性質を扱うために,リスクレベルチューニングのための動的リスクレベル予測器を提案する。
最後に,集中トレーニング中のTD誤差のターゲット推定にCVaR値を用いてCVaRポリシを最適化し,CVaR値を補助的局所報酬として,量子回帰損失による局所分布の更新を行う。
実験により,本手法はStarCraft IIタスクの課題に対して,最先端の手法よりも優れ,協調性の向上とサンプル効率の向上を実証した。
関連論文リスト
- Safe Deployment for Counterfactual Learning to Rank with Exposure-Based
Risk Minimization [63.93275508300137]
本稿では,安全な配置を理論的に保証する新たなリスク認識型対実学習ランク法を提案する。
提案手法の有効性を実験的に検証し,データが少ない場合の動作不良の早期回避に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-26T15:54:23Z) - Risk-Aware Distributed Multi-Agent Reinforcement Learning [8.287693091673658]
我々は,リスク認識行動の学習により,未知環境における意思決定問題を解決するために,分散MARLアプローチを開発した。
次に,CVaR QD-Learningアルゴリズムと呼ばれる分散MARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-04T17:56:44Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Risk-Averse No-Regret Learning in Online Convex Games [19.4481913405231]
リスク回避エージェントを備えたオンラインゲームは,コストの大幅な増大のリスクを最小限に抑える最適な決定を学習することを目的としている。
コスト関数の分布は一般に観測不可能なすべてのエージェントの作用に依存するため、コストの条件付値(CVaR)の計算は困難である。
CVaR値を用いて計算したCVaR勾配の1点ゼロ次推定に依存する新しいオンラインリスク逆学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-16T21:36:47Z) - Risk-Aware Learning for Scalable Voltage Optimization in Distribution
Grids [19.0428894025206]
本稿では、反応電力予測や電圧偏差に伴う潜在的なリスクを考慮し、学習可能なアプローチを改善することを目的とする。
具体的には,最悪の事例のみに基づいて,条件付きリスク損失(CVaR)を用いて,そのようなリスクを測定することを提案する。
そこで本研究では, CVaR損失目標に基づくトレーニングプロセスを加速するために, 最悪のサンプルを含む可能性が低いミニバッチを選択することを提案する。
論文 参考訳(メタデータ) (2021-10-04T15:00:13Z) - Self-supervised Representation Learning with Relative Predictive Coding [102.93854542031396]
Relative Predictive Coding(RPC)は、新しいコントラスト表現学習目標である。
RPCは、トレーニング安定性、ミニバッチサイズ感度、ダウンストリームタスクパフォーマンスのバランスが良好である。
ベンチマークビジョンと音声自己教師型学習タスクにおけるRPCの有効性を実証的に検証する。
論文 参考訳(メタデータ) (2021-03-21T01:04:24Z) - Distributionally Robust Learning for Uncertainty Calibration under
Domain Shift [144.27462811335974]
ドメインシフトの下で校正された不確実性を学習するためのフレームワークを提案する。
我々は、敵のリスク最小化によるドメインシフトを考慮に入れた分散ロバスト学習(DRL)フレームワークを使用している。
実験の結果,DRLの導入はドメイン間性能の大幅な向上につながることがわかった。
論文 参考訳(メタデータ) (2020-10-08T02:10:54Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for
Addressing Value Estimation Errors [13.534873779043478]
本稿では,Q値過大評価を緩和し,ポリシー性能を向上させるための分散型ソフトアクター・クリティック(DSAC)アルゴリズムを提案する。
我々は,MuJoCo連続制御タスクのスイート上でDSACを評価し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-01-09T02:27:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。