論文の概要: Taming Equilibrium Bias in Risk-Sensitive Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.02724v1
- Date: Sat, 4 May 2024 17:47:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 18:39:58.462128
- Title: Taming Equilibrium Bias in Risk-Sensitive Multi-Agent Reinforcement Learning
- Title(参考訳): リスク感性多エージェント強化学習における平衡バイアスのモデリング
- Authors: Yingjie Fei, Ruitu Xu,
- Abstract要約: リスクに敏感なマルチエージェント強化学習を一般的なマルコフゲームで研究する。
本研究では,既存の文献から帰納的に適用した後悔を評価指標として,均衡バイアスを伴う政策を導出できることを示す。
我々は、リスクバランスのとれた後悔の概念を新たに提案し、均衡バイアスの問題を克服していることを示す。
- 参考スコア(独自算出の注目度): 14.571671587217764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study risk-sensitive multi-agent reinforcement learning under general-sum Markov games, where agents optimize the entropic risk measure of rewards with possibly diverse risk preferences. We show that using the regret naively adapted from existing literature as a performance metric could induce policies with equilibrium bias that favor the most risk-sensitive agents and overlook the other agents. To address such deficiency of the naive regret, we propose a novel notion of regret, which we call risk-balanced regret, and show through a lower bound that it overcomes the issue of equilibrium bias. Furthermore, we develop a self-play algorithm for learning Nash, correlated, and coarse correlated equilibria in risk-sensitive Markov games. We prove that the proposed algorithm attains near-optimal regret guarantees with respect to the risk-balanced regret.
- Abstract(参考訳): リスク依存型マルチエージェント強化学習において,エージェントが多種多様なリスク嗜好を持つ報酬のエントロピー的リスク尺度を最適化し,リスクに敏感なマルチエージェント強化学習について検討した。
我々は,既存の文献から否定的に適応された後悔をパフォーマンス指標として利用することで,最もリスクに敏感なエージェントを優先し,他のエージェントを無視する平衡バイアスの政策を誘導できることを示した。
ナイーブな後悔の欠如に対処するため、我々はリスクバランスのとれた後悔という新しい後悔の概念を提案し、均衡バイアスの問題を克服することの限界を低く示す。
さらに,リスクに敏感なマルコフゲームにおいて,Nashの学習,相関,粗相関平衡を学習するための自己再生アルゴリズムを開発した。
提案アルゴリズムは, リスクバランスの取れた後悔に対して, ほぼ最適の後悔保証が得られることを示す。
関連論文リスト
- Model-Based Epistemic Variance of Values for Risk-Aware Policy
Optimization [63.32053223422317]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
特に、MDP上の分布によって誘導される値の分散を特徴付けることに焦点をあてる。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Regret Bounds for Risk-sensitive Reinforcement Learning with Lipschitz
Dynamic Risk Measures [23.46659319363579]
EmphLipschitz動的リスク尺度に適用した2つのモデルベースアルゴリズムを提案する。
特に、私たちの上限は、アクションの数とエピソード数に最適な依存を示す。
論文 参考訳(メタデータ) (2023-06-04T16:24:19Z) - Safe Deployment for Counterfactual Learning to Rank with Exposure-Based
Risk Minimization [63.93275508300137]
本稿では,安全な配置を理論的に保証する新たなリスク認識型対実学習ランク法を提案する。
提案手法の有効性を実験的に検証し,データが少ない場合の動作不良の早期回避に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-26T15:54:23Z) - Regret Minimization and Convergence to Equilibria in General-sum Markov
Games [57.568118148036376]
汎用マルコフゲームにおいて,全てのエージェントが実行した場合のサブ線形後悔保証を提供する学習アルゴリズムを初めて提示する。
我々のアルゴリズムは分散化され、計算効率が良く、エージェント間の通信は不要である。
論文 参考訳(メタデータ) (2022-07-28T16:27:59Z) - Learning Risk-Averse Equilibria in Multi-Agent Systems [13.25454171233235]
マルチエージェントシステムでは、知的エージェントは、他のエージェントのアクションが期待通りである場合に最適な結果をもたらす決定を行う。
本稿では,学習者が予期せぬ行動に適応できる新たなリスク回避ソリューションを提案する。
リスク-逆均衡を近似するエージェントの集団は、特に目に見えない反対の集団の存在に有効であることを示す。
論文 参考訳(メタデータ) (2022-05-30T21:20:30Z) - A Survey of Risk-Aware Multi-Armed Bandits [84.67376599822569]
我々は、様々な利害リスク対策をレビューし、その特性についてコメントする。
我々は,探索と探索のトレードオフが現れる,後悔の最小化設定のためのアルゴリズムを検討する。
今後の研究の課題と肥大化についてコメントし、締めくくりに締めくくります。
論文 参考訳(メタデータ) (2022-05-12T02:20:34Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Risk-Sensitive Bayesian Games for Multi-Agent Reinforcement Learning
under Policy Uncertainty [6.471031681646443]
不完全な情報を持つゲームにおいて、不確実性はプレイヤー自身と他のプレイヤーのタイプについての知識の欠如によって引き起こされる。
リスクニュートラル学習ゲームのための既存のアルゴリズムのリスクセンシティブなバージョンを提案する。
実験により,リスクに敏感なDAPGは,社会福祉ゲームと一般ゲームの両方において,競合するアルゴリズムよりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-03-18T16:40:30Z) - SENTINEL: Taming Uncertainty with Ensemble-based Distributional
Reinforcement Learning [6.587644069410234]
モデルベース強化学習(RL)におけるリスク依存型シーケンシャル意思決定の検討
リスクの新たな定量化、すなわちEmphcomposite riskを導入する。
我々は、SENTINEL-Kが戻り分布をよりよく推定し、複合リスク推定と併用しながら、競合するRLアルゴリズムよりもリスクに敏感な性能を示すことを実験的に検証した。
論文 参考訳(メタデータ) (2021-02-22T14:45:39Z) - Bounded Risk-Sensitive Markov Games: Forward Policy Design and Inverse
Reward Learning with Iterative Reasoning and Cumulative Prospect Theory [33.57592649823294]
本稿では,リスクに敏感なマルコフゲーム(BRSMG)とその逆報酬学習問題について検討する。
我々は,BRSMGにおいて,人間は知能を制限し,リスクに敏感なユーティリティを最大化することを示した。
その結果, エージェントの行動は, リスク・リバース特性とリスク・サーキング特性の両方を示すことがわかった。
論文 参考訳(メタデータ) (2020-09-03T07:32:32Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。