論文の概要: Learning Risk-Averse Equilibria in Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2205.15434v1
- Date: Mon, 30 May 2022 21:20:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 13:26:44.418281
- Title: Learning Risk-Averse Equilibria in Multi-Agent Systems
- Title(参考訳): マルチエージェントシステムにおけるリスク回避均衡の学習
- Authors: Oliver Slumbers, David Henry Mguni, Stephen McAleer, Jun Wang, Yaodong
Yang
- Abstract要約: マルチエージェントシステムでは、知的エージェントは、他のエージェントのアクションが期待通りである場合に最適な結果をもたらす決定を行う。
本稿では,学習者が予期せぬ行動に適応できる新たなリスク回避ソリューションを提案する。
リスク-逆均衡を近似するエージェントの集団は、特に目に見えない反対の集団の存在に有効であることを示す。
- 参考スコア(独自算出の注目度): 13.25454171233235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In multi-agent systems, intelligent agents are tasked with making decisions
that have optimal outcomes when the actions of the other agents are as
expected, whilst also being prepared for unexpected behaviour. In this work, we
introduce a new risk-averse solution concept that allows the learner to
accommodate unexpected actions by finding the minimum variance strategy given
any level of expected return. We prove the existence of such a risk-averse
equilibrium, and propose one fictitious-play type learning algorithm for
smaller games that enjoys provable convergence guarantees in certain games
classes (e.g., zero-sum or potential). Furthermore, we propose an approximation
method for larger games based on iterative population-based training that
generates a population of risk-averse agents. Empirically, our equilibrium is
shown to be able to reduce the reward variance, specifically in the sense that
off-equilibrium behaviour has a far smaller impact on our risk-averse agents in
comparison to playing other equilibrium solutions. Importantly, we show that
our population of agents that approximate a risk-averse equilibrium is
particularly effective in the presence of unseen opposing populations,
especially in the case of guaranteeing a minimal level of performance which is
critical to safety-aware multi-agent systems.
- Abstract(参考訳): 多エージェントシステムでは、知的エージェントは、他のエージェントのアクションが期待通りである場合に最適な結果をもたらす決定を行うとともに、予期しない振る舞いに備える。
そこで本研究では,学習者が期待値のレベルに応じた最小分散戦略を見つけることで予期せぬ行動に適応できる,新たなリスク回避型解法を提案する。
このようなリスク逆均衡の存在を証明し、特定のゲームクラス(例えばゼロサムやポテンシャル)で証明可能な収束保証を享受する小さなゲームに対して、架空の遊び型学習アルゴリズムを提案する。
さらに,リスク回避エージェント群を生成する反復的集団学習に基づく大規模ゲームに対する近似手法を提案する。
実験的に、我々の平衡は報酬の分散を低減できることが示されており、特に、非平衡の挙動は他の平衡の解よりもリスク-逆のエージェントへの影響がはるかに小さい。
重要となるのは,リスク回避均衡を近似するエージェント群が,特に安全対応マルチエージェントシステムに不可欠な最小レベルの性能を保証する場合において,対向する集団の存在において特に有効であることを示すことである。
関連論文リスト
- Taming Equilibrium Bias in Risk-Sensitive Multi-Agent Reinforcement Learning [14.571671587217764]
リスクに敏感なマルチエージェント強化学習を一般的なマルコフゲームで研究する。
本研究では,既存の文献から帰納的に適用した後悔を評価指標として,均衡バイアスを伴う政策を導出できることを示す。
我々は、リスクバランスのとれた後悔の概念を新たに提案し、均衡バイアスの問題を克服していることを示す。
論文 参考訳(メタデータ) (2024-05-04T17:47:45Z) - Learning Diverse Risk Preferences in Population-based Self-play [23.07952140353786]
現在のセルフプレイアルゴリズムはエージェントを最適化し、現在のコピーや歴史的なコピーに対して期待される勝利率を最大化する。
我々は,不確実性に直面したエージェントが多様なリスク嗜好を持つという観点から,多様性を導入する。
本手法は,競技ゲームにおいて,同等あるいは優れた性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2023-05-19T06:56:02Z) - Toward Risk-based Optimistic Exploration for Cooperative Multi-Agent
Reinforcement Learning [9.290757451344673]
分布のサンプリング領域をシフトさせることにより協調的に楽観的な行動をもたらすリスクベースの探索を提案する。
本手法は, 量子レグレッションに基づく協調探索を必要とするマルチエージェント環境において, 顕著な性能を示す。
論文 参考訳(メタデータ) (2023-03-03T08:17:57Z) - Regret Minimization and Convergence to Equilibria in General-sum Markov
Games [57.568118148036376]
汎用マルコフゲームにおいて,全てのエージェントが実行した場合のサブ線形後悔保証を提供する学習アルゴリズムを初めて提示する。
我々のアルゴリズムは分散化され、計算効率が良く、エージェント間の通信は不要である。
論文 参考訳(メタデータ) (2022-07-28T16:27:59Z) - Risk-Sensitive Bayesian Games for Multi-Agent Reinforcement Learning
under Policy Uncertainty [6.471031681646443]
不完全な情報を持つゲームにおいて、不確実性はプレイヤー自身と他のプレイヤーのタイプについての知識の欠如によって引き起こされる。
リスクニュートラル学習ゲームのための既存のアルゴリズムのリスクセンシティブなバージョンを提案する。
実験により,リスクに敏感なDAPGは,社会福祉ゲームと一般ゲームの両方において,競合するアルゴリズムよりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-03-18T16:40:30Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Learning Collective Action under Risk Diversity [68.88688248278102]
集団的リスクジレンマを演じることを学ぶエージェントのグループにおけるリスク多様性の結果について検討する。
リスクの多様性は、全体的な協力を著しく減らし、全体的な目標達成を妨げることを示す。
この結果から,エージェント間のリスク認識の整合性や新たな学習技術開発の必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2022-01-30T18:21:21Z) - On Assessing The Safety of Reinforcement Learning algorithms Using
Formal Methods [6.2822673562306655]
敵の訓練、敵の検知、堅牢な学習といった安全メカニズムは、エージェントが配備されるすべての障害に常に適応するとは限らない。
したがって,エージェントが直面する学習課題に適応した新しいソリューションを提案する必要がある。
我々は、対向的摂動に直面した際のエージェントのポリシーを改善するために、報酬形成とQ-ラーニングアルゴリズムを防御機構として使用する。
論文 参考訳(メタデータ) (2021-11-08T23:08:34Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - ERMAS: Becoming Robust to Reward Function Sim-to-Real Gaps in
Multi-Agent Simulations [110.72725220033983]
Epsilon-Robust Multi-Agent Simulation (ERMAS)は、このようなマルチエージェントのsim-to-realギャップに対して堅牢なAIポリシーを学ぶためのフレームワークである。
ERMASは、エージェントリスク回避の変化に対して堅牢な税政策を学び、複雑な時間シミュレーションで最大15%社会福祉を改善する。
特に、ERMASは、エージェントリスク回避の変化に対して堅牢な税制政策を学び、複雑な時間シミュレーションにおいて、社会福祉を最大15%改善する。
論文 参考訳(メタデータ) (2021-06-10T04:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。