論文の概要: Risk-Sensitive Bayesian Games for Multi-Agent Reinforcement Learning
under Policy Uncertainty
- arxiv url: http://arxiv.org/abs/2203.10045v1
- Date: Fri, 18 Mar 2022 16:40:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 16:07:14.665529
- Title: Risk-Sensitive Bayesian Games for Multi-Agent Reinforcement Learning
under Policy Uncertainty
- Title(参考訳): 政策不確実性下におけるマルチエージェント強化学習のためのリスクセンシティブベイズゲーム
- Authors: Hannes Eriksson, Debabrota Basu, Mina Alibeigi, Christos Dimitrakakis
- Abstract要約: 不完全な情報を持つゲームにおいて、不確実性はプレイヤー自身と他のプレイヤーのタイプについての知識の欠如によって引き起こされる。
リスクニュートラル学習ゲームのための既存のアルゴリズムのリスクセンシティブなバージョンを提案する。
実験により,リスクに敏感なDAPGは,社会福祉ゲームと一般ゲームの両方において,競合するアルゴリズムよりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 6.471031681646443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In stochastic games with incomplete information, the uncertainty is evoked by
the lack of knowledge about a player's own and the other players' types, i.e.
the utility function and the policy space, and also the inherent stochasticity
of different players' interactions. In existing literature, the risk in
stochastic games has been studied in terms of the inherent uncertainty evoked
by the variability of transitions and actions. In this work, we instead focus
on the risk associated with the \textit{uncertainty over types}. We contrast
this with the multi-agent reinforcement learning framework where the other
agents have fixed stationary policies and investigate risk-sensitiveness due to
the uncertainty about the other agents' adaptive policies. We propose
risk-sensitive versions of existing algorithms proposed for risk-neutral
stochastic games, such as Iterated Best Response (IBR), Fictitious Play (FP)
and a general multi-objective gradient approach using dual ascent (DAPG). Our
experimental analysis shows that risk-sensitive DAPG performs better than
competing algorithms for both social welfare and general-sum stochastic games.
- Abstract(参考訳): 不完全な情報を持つ確率ゲームでは、プレイヤー自身と他のプレイヤーのタイプについての知識の欠如、すなわちユーティリティ機能とポリシー空間、そして異なるプレイヤーの相互作用の固有の確率性によって不確実性が引き起こされる。
既存の文献では、確率ゲームにおけるリスクは、遷移と行動の変動によって引き起こされる固有の不確実性の観点から研究されている。
この作業では、代わりに \textit{uncertainty over types} に関連するリスクに焦点を当てます。
我々は,他のエージェントが定常ポリシーを固定したマルチエージェント強化学習フレームワークと対比し,他のエージェントの適応ポリシーの不確実性によるリスク感受性の検討を行った。
本稿では,リスクニュートラルな確率ゲーム(IBR, Fictitious Play (FP) や,デュアルアセント(DAPG)を用いた汎用多目的勾配アプローチなどのリスクニュートラルなアルゴリズムを提案する。
実験により,リスク感受性DAPGは,社会福祉ゲームと一般確率ゲームの両方において,競合するアルゴリズムよりも優れた性能を示した。
関連論文リスト
- Taming Equilibrium Bias in Risk-Sensitive Multi-Agent Reinforcement Learning [14.571671587217764]
リスクに敏感なマルチエージェント強化学習を一般的なマルコフゲームで研究する。
本研究では,既存の文献から帰納的に適用した後悔を評価指標として,均衡バイアスを伴う政策を導出できることを示す。
我々は、リスクバランスのとれた後悔の概念を新たに提案し、均衡バイアスの問題を克服していることを示す。
論文 参考訳(メタデータ) (2024-05-04T17:47:45Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Learning Diverse Risk Preferences in Population-based Self-play [23.07952140353786]
現在のセルフプレイアルゴリズムはエージェントを最適化し、現在のコピーや歴史的なコピーに対して期待される勝利率を最大化する。
我々は,不確実性に直面したエージェントが多様なリスク嗜好を持つという観点から,多様性を導入する。
本手法は,競技ゲームにおいて,同等あるいは優れた性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2023-05-19T06:56:02Z) - One Risk to Rule Them All: A Risk-Sensitive Perspective on Model-Based
Offline Reinforcement Learning [25.218430053391884]
両問題に共同で対処するためのメカニズムとしてリスク感受性を提案する。
相対的不確実性へのリスク回避は、環境に悪影響を及ぼす可能性のある行動を妨げる。
実験の結果,提案アルゴリズムは決定論的ベンチマーク上での競合性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-11-30T21:24:11Z) - Learning Risk-Averse Equilibria in Multi-Agent Systems [13.25454171233235]
マルチエージェントシステムでは、知的エージェントは、他のエージェントのアクションが期待通りである場合に最適な結果をもたらす決定を行う。
本稿では,学習者が予期せぬ行動に適応できる新たなリスク回避ソリューションを提案する。
リスク-逆均衡を近似するエージェントの集団は、特に目に見えない反対の集団の存在に有効であることを示す。
論文 参考訳(メタデータ) (2022-05-30T21:20:30Z) - A Survey of Risk-Aware Multi-Armed Bandits [84.67376599822569]
我々は、様々な利害リスク対策をレビューし、その特性についてコメントする。
我々は,探索と探索のトレードオフが現れる,後悔の最小化設定のためのアルゴリズムを検討する。
今後の研究の課題と肥大化についてコメントし、締めくくりに締めくくります。
論文 参考訳(メタデータ) (2022-05-12T02:20:34Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - SAAC: Safe Reinforcement Learning as an Adversarial Game of
Actor-Critics [11.132587007566329]
そこで我々は,SAACと呼ばれるソフトアクター批判フレームワークを開発した。
SAACでは、RLエージェントが制約値関数の最大化を目標として、安全制約を破ることを目的としている。
安全性の制約を満たすために,SAACはより早く収束し,効率が良く,障害が少なくなることを示す。
論文 参考訳(メタデータ) (2022-04-20T12:32:33Z) - Robust Policy Learning over Multiple Uncertainty Sets [91.67120465453179]
強化学習(RL)エージェントは、安全クリティカルな環境の変動に対して堅牢である必要がある。
システム識別とロバストRLの両方の利点を享受するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-02-14T20:06:28Z) - Off-Policy Evaluation of Slate Policies under Bayes Risk [70.10677881866047]
スレートのスロット上でロギングポリシーが因子化される典型的なケースにおいて、スレート帯のオフポリシ評価の問題について検討する。
PIによるリスク改善はスロット数とともに線形に増加し、スロットレベルの分岐の集合の算術平均と調和平均とのギャップによって線形に増加することを示す。
論文 参考訳(メタデータ) (2021-01-05T20:07:56Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。