論文の概要: Risk-Sensitive Multi-Agent Reinforcement Learning in Network Aggregative
Markov Games
- arxiv url: http://arxiv.org/abs/2402.05906v1
- Date: Thu, 8 Feb 2024 18:43:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 13:23:23.863762
- Title: Risk-Sensitive Multi-Agent Reinforcement Learning in Network Aggregative
Markov Games
- Title(参考訳): ネットワーク集約マルコフゲームにおけるリスク感性多エージェント強化学習
- Authors: Hafez Ghaemi, Hamed Kebriaei, Alireza Ramezani Moghaddam, Majid Nili
Ahamdabadi
- Abstract要約: ネットワーク集約ゲーム(NAMG)のCPTリスクを考慮した分散サンプリングベースアクタクリティカル(AC)アルゴリズムを提案する。
一組の仮定の下で、NAMGにおける完全ナッシュ均衡の主観的な概念を証明する。
実験により、主観的な政策はリスク中立的な政策とは異なる可能性があることが示された。
- 参考スコア(独自算出の注目度): 2.85386288555414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classical multi-agent reinforcement learning (MARL) assumes risk neutrality
and complete objectivity for agents. However, in settings where agents need to
consider or model human economic or social preferences, a notion of risk must
be incorporated into the RL optimization problem. This will be of greater
importance in MARL where other human or non-human agents are involved, possibly
with their own risk-sensitive policies. In this work, we consider
risk-sensitive and non-cooperative MARL with cumulative prospect theory (CPT),
a non-convex risk measure and a generalization of coherent measures of risk.
CPT is capable of explaining loss aversion in humans and their tendency to
overestimate/underestimate small/large probabilities. We propose a distributed
sampling-based actor-critic (AC) algorithm with CPT risk for network
aggregative Markov games (NAMGs), which we call Distributed Nested CPT-AC.
Under a set of assumptions, we prove the convergence of the algorithm to a
subjective notion of Markov perfect Nash equilibrium in NAMGs. The experimental
results show that subjective CPT policies obtained by our algorithm can be
different from the risk-neutral ones, and agents with a higher loss aversion
are more inclined to socially isolate themselves in an NAMG.
- Abstract(参考訳): 古典的マルチエージェント強化学習(MARL)は、エージェントに対するリスク中立性と完全な客観性を仮定する。
しかしながら、エージェントが人間の経済や社会的嗜好を考慮またはモデル化する必要がある場合、リスクの概念をRL最適化問題に組み込む必要がある。
これは、他のヒトまたは非ヒトエージェントが関与するMARLにおいて、おそらくは自身のリスク感受性ポリシーにおいてより重要である。
本研究では,リスク感受性と非協調的MARLを累積予測理論(CPT),非凸リスク尺度,コヒーレントリスク尺度の一般化とともに考察する。
CPTは、ヒトの損失回避と、その過大評価/過小評価傾向を説明することができる。
我々は,分散Nested CPT-ACと呼ぶネットワーク集約型マルコフゲーム(NAMG)のCPTリスクを考慮した分散サンプリングベースアクタクリティカル(AC)アルゴリズムを提案する。
一連の仮定の下で、namgsにおけるマルコフ完全ナッシュ均衡の主観的概念へのアルゴリズムの収束を証明する。
実験の結果,本アルゴリズムによって得られた主観的cptポリシーはリスク中立と異なる可能性を示し,高い損失回避傾向を持つエージェントはnamgで社会的に分離する傾向が強いことがわかった。
関連論文リスト
- Breaking the Curse of Multiagency in Robust Multi-Agent Reinforcement Learning [37.80275600302316]
分布的にロバストなマルコフゲーム (RMG) は、MARLのロバスト性を高めるために提案されている。
RMGがマルチ緊急の呪いから逃れられるかどうか。
これは、RMGに対するマルチ緊急の呪いを破る最初のアルゴリズムである。
論文 参考訳(メタデータ) (2024-09-30T08:09:41Z) - Risk-Sensitive RL with Optimized Certainty Equivalents via Reduction to
Standard RL [48.1726560631463]
我々は,OCE(Optimized Certainty Equivalent)リスクを用いたリスク感性強化学習について検討した。
標準RLへの還元による2つの一般的なメタアルゴリズムを提案する。
我々は,事前アルゴリズムが確実に失敗する間に,最適リスク感応ポリシーを学習することを示す。
論文 参考訳(メタデータ) (2024-03-10T21:45:12Z) - Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - RiskQ: Risk-sensitive Multi-Agent Reinforcement Learning Value Factorization [49.26510528455664]
本稿では,リスクに敏感な個人・グローバル・マックス(RIGM)の原則を,個人・グローバル・マックス(IGM)と分散IGM(DIGM)の原則の一般化として紹介する。
RiskQは広範な実験によって有望な性能が得られることを示す。
論文 参考訳(メタデータ) (2023-11-03T07:18:36Z) - Risk-Averse Reinforcement Learning via Dynamic Time-Consistent Risk
Measures [10.221369785560785]
本稿では,マルコフ決定過程(MDP)における報酬列の動的リスクを最大化する問題について考察する。
予測と条件付きリスクリスク(CVaR)の凸結合を特別な一段階の条件付きリスク尺度として用いて、我々は、リスク回避型MDPを、強化されたアクション空間を持つリスク中立型として再構成し、即時報酬の操作を行う。
本研究は,リスク・アバース・セッティングが分散を低減し,その結果のロバスト性を高めることを示唆するものである。
論文 参考訳(メタデータ) (2023-01-14T21:43:18Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - How does the Combined Risk Affect the Performance of Unsupervised Domain
Adaptation Approaches? [33.65954640678556]
unsupervised domain adaptation (uda)は、ソースドメインからのラベル付きサンプルとターゲットドメインからのラベルなしサンプルでターゲット分類器をトレーニングすることを目的としている。
e-mixnetは、ラベル付きソースサンプルと疑似ラベル付きターゲットサンプルに汎用的なビビナル分布である強化ミックスアップを使用して、複合リスクのプロキシを計算する。
論文 参考訳(メタデータ) (2020-12-30T00:46:57Z) - Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。
本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-11-16T15:53:22Z) - Bounded Risk-Sensitive Markov Games: Forward Policy Design and Inverse
Reward Learning with Iterative Reasoning and Cumulative Prospect Theory [33.57592649823294]
本稿では,リスクに敏感なマルコフゲーム(BRSMG)とその逆報酬学習問題について検討する。
我々は,BRSMGにおいて,人間は知能を制限し,リスクに敏感なユーティリティを最大化することを示した。
その結果, エージェントの行動は, リスク・リバース特性とリスク・サーキング特性の両方を示すことがわかった。
論文 参考訳(メタデータ) (2020-09-03T07:32:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。