論文の概要: Risk-Aware Distributed Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2304.02005v1
- Date: Tue, 4 Apr 2023 17:56:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 12:44:13.573614
- Title: Risk-Aware Distributed Multi-Agent Reinforcement Learning
- Title(参考訳): リスクアウェア分散マルチエージェント強化学習
- Authors: Abdullah Al Maruf, Luyao Niu, Bhaskar Ramasubramanian, Andrew Clark,
Radha Poovendran
- Abstract要約: 我々は,リスク認識行動の学習により,未知環境における意思決定問題を解決するために,分散MARLアプローチを開発した。
次に,CVaR QD-Learningアルゴリズムと呼ばれる分散MARLアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 8.287693091673658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous cyber and cyber-physical systems need to perform decision-making,
learning, and control in unknown environments. Such decision-making can be
sensitive to multiple factors, including modeling errors, changes in costs, and
impacts of events in the tails of probability distributions. Although
multi-agent reinforcement learning (MARL) provides a framework for learning
behaviors through repeated interactions with the environment by minimizing an
average cost, it will not be adequate to overcome the above challenges. In this
paper, we develop a distributed MARL approach to solve decision-making problems
in unknown environments by learning risk-aware actions. We use the conditional
value-at-risk (CVaR) to characterize the cost function that is being minimized,
and define a Bellman operator to characterize the value function associated to
a given state-action pair. We prove that this operator satisfies a contraction
property, and that it converges to the optimal value function. We then propose
a distributed MARL algorithm called the CVaR QD-Learning algorithm, and
establish that value functions of individual agents reaches consensus. We
identify several challenges that arise in the implementation of the CVaR
QD-Learning algorithm, and present solutions to overcome these. We evaluate the
CVaR QD-Learning algorithm through simulations, and demonstrate the effect of a
risk parameter on value functions at consensus.
- Abstract(参考訳): 自律的なサイバー・サイバー物理システムは未知の環境で意思決定、学習、制御を行う必要がある。
このような意思決定は、モデリングエラー、コストの変化、確率分布のテールにおける事象の影響など、複数の要因に敏感である。
マルチエージェント強化学習(MARL)は, 平均コストを最小化し, 環境との繰り返し相互作用を通じて行動を学ぶための枠組みを提供するが, 上記の課題を克服するには不十分である。
本稿では,リスク認識行動の学習により,未知環境における意思決定問題を解決するための分散MARL手法を提案する。
条件付き値-リスク(CVaR)を用いて最小化されるコスト関数を特徴付けるとともに、ベルマン演算子を定義し、与えられた状態-作用対に関連する値関数を特徴付ける。
この作用素が縮約性を満たすことを証明し、最適な値関数に収束することを示す。
次に, cvar qd-learningアルゴリズムと呼ばれる分散marlアルゴリズムを提案し, 個々のエージェントの価値関数がコンセンサスに達することを示す。
CVaR QD-Learningアルゴリズムの実装で生じるいくつかの課題を特定し,その解決法を提案する。
CVaR QD-Learningアルゴリズムをシミュレーションにより評価し,コンセンサスにおける値関数に対するリスクパラメータの効果を示す。
関連論文リスト
- Robust Reinforcement Learning with Dynamic Distortion Risk Measures [0.0]
我々は、堅牢なリスク対応強化学習問題を解決するための枠組みを考案した。
我々は, 環境の不確実性とリスクを, 動的に頑健な歪みリスク対策のクラスで同時に考慮する。
本研究では,リスクを意識したRL問題の解法としてアクター批判アルゴリズムを構築した。
論文 参考訳(メタデータ) (2024-09-16T08:54:59Z) - Robust Risk-Sensitive Reinforcement Learning with Conditional Value-at-Risk [23.63388546004777]
我々はロバスト・マルコフ決定過程の下でCVaRに基づくリスク感受性RLのロバスト性を分析する。
実世界の問題における意思決定依存の不確実性の存在を動機として、状態行動依存曖昧性集合による問題を研究する。
論文 参考訳(メタデータ) (2024-05-02T20:28:49Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - On the Complexity of Adversarial Decision Making [101.14158787665252]
決定推定係数は, 相手の意思決定に対する後悔度を低く抑えるのに必要であり, 十分であることを示す。
我々は、決定推定係数を他のよく知られた複雑性尺度の変種に結びつける新しい構造結果を提供する。
論文 参考訳(メタデータ) (2022-06-27T06:20:37Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Multi-Agent Reinforcement Learning via Adaptive Kalman Temporal
Difference and Successor Representation [32.80370188601152]
本稿では,マルチエージェント適応カルマン時間差分(MAK-TD)フレームワークとその継承表現に基づく変種(MAK-SR)を提案する。
提案するMAK-TD/SRフレームワークは,高次元マルチエージェント環境に関連付けられたアクション空間の連続的な性質を考察する。
論文 参考訳(メタデータ) (2021-12-30T18:21:53Z) - ROMAX: Certifiably Robust Deep Multiagent Reinforcement Learning via
Convex Relaxation [32.091346776897744]
サイバー物理攻撃は、マルチエージェント強化学習の堅牢性に挑戦することができる。
我々は,他のエージェントの最悪のポリシー更新を推測するミニマックスMARL手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T16:18:35Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via
Online High-Confidence Change-Point Detection [7.685002911021767]
非定常環境におけるポリシーを効率的に学習するアルゴリズムを導入する。
これは、リアルタイム、高信頼な変更点検出統計において、潜在的に無限のデータストリームと計算を解析する。
i) このアルゴリズムは, 予期せぬ状況変化が検出されるまでの遅延を最小限に抑え, 迅速な応答を可能にする。
論文 参考訳(メタデータ) (2021-05-20T01:57:52Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。