論文の概要: Achieving Fairness in Multi-Agent Markov Decision Processes Using
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.00324v1
- Date: Thu, 1 Jun 2023 03:43:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 18:20:42.306593
- Title: Achieving Fairness in Multi-Agent Markov Decision Processes Using
Reinforcement Learning
- Title(参考訳): 強化学習を用いたマルチエージェントマルコフ決定過程の公正化
- Authors: Peizhong Ju, Arnob Ghosh, Ness B. Shroff
- Abstract要約: 有限水平エピソードMDPにおける公平性を実現するための強化学習手法を提案する。
このようなアプローチは、エピソード数の観点から、サブ線形後悔を実現することを示す。
- 参考スコア(独自算出の注目度): 30.605881670761853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fairness plays a crucial role in various multi-agent systems (e.g.,
communication networks, financial markets, etc.). Many multi-agent dynamical
interactions can be cast as Markov Decision Processes (MDPs). While existing
research has focused on studying fairness in known environments, the
exploration of fairness in such systems for unknown environments remains open.
In this paper, we propose a Reinforcement Learning (RL) approach to achieve
fairness in multi-agent finite-horizon episodic MDPs. Instead of maximizing the
sum of individual agents' value functions, we introduce a fairness function
that ensures equitable rewards across agents. Since the classical Bellman's
equation does not hold when the sum of individual value functions is not
maximized, we cannot use traditional approaches. Instead, in order to explore,
we maintain a confidence bound of the unknown environment and then propose an
online convex optimization based approach to obtain a policy constrained to
this confidence region. We show that such an approach achieves sub-linear
regret in terms of the number of episodes. Additionally, we provide a probably
approximately correct (PAC) guarantee based on the obtained regret bound. We
also propose an offline RL algorithm and bound the optimality gap with respect
to the optimal fair solution. To mitigate computational complexity, we
introduce a policy-gradient type method for the fair objective. Simulation
experiments also demonstrate the efficacy of our approach.
- Abstract(参考訳): 公平性は、様々なマルチエージェントシステム(例えば、通信ネットワーク、金融市場など)において重要な役割を果たす。
多くのマルチエージェントの動的相互作用はマルコフ決定過程(MDP)としてキャストできる。
既存の研究は既知の環境における公平性の研究に焦点が当てられているが、未知の環境における公平性の研究は未解決のままである。
本稿では,多エージェント有限水平エピソードMDPにおける公平性を実現するための強化学習(RL)手法を提案する。
個々のエージェントの価値関数の合計を最大化する代わりに、エージェント間で公平な報酬を保証する公平性関数を導入する。
古典的なベルマン方程式は、個々の値関数の和が最大化されないときに成り立たないので、従来のアプローチは使用できない。
代わりに、我々は未知の環境の信頼を保ち、その信頼領域に制約されたポリシーを得るためのオンライン凸最適化に基づくアプローチを提案する。
このようなアプローチは、エピソード数の観点から、サブ線形後悔を実現することを示す。
さらに、得られた後悔境界に基づいて、おそらくほぼ正しい(PAC)保証を提供する。
また,オフラインrlアルゴリズムを提案し,最適公平解に関して最適性ギャップを限定する。
計算の複雑さを軽減するため、公正な目的のためにポリシー勾配型手法を導入する。
またシミュレーション実験により,本手法の有効性を実証した。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - QFree: A Universal Value Function Factorization for Multi-Agent
Reinforcement Learning [2.287186762346021]
マルチエージェント強化学習のための共通値関数分解法QFreeを提案する。
汎用複雑なMARLベンチマーク環境において,QFreeが最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-11-01T08:07:16Z) - Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - Toward Risk-based Optimistic Exploration for Cooperative Multi-Agent
Reinforcement Learning [9.290757451344673]
分布のサンプリング領域をシフトさせることにより協調的に楽観的な行動をもたらすリスクベースの探索を提案する。
本手法は, 量子レグレッションに基づく協調探索を必要とするマルチエージェント環境において, 顕著な性能を示す。
論文 参考訳(メタデータ) (2023-03-03T08:17:57Z) - Latent State Marginalization as a Low-cost Approach for Improving
Exploration [79.12247903178934]
我々はMaxEntフレームワークにおける潜在変数ポリシーの採用を提案する。
我々は、潜在変数ポリシーが、潜在信念状態を持つ世界モデルの下で自然に現れることを示す。
提案手法を連続制御タスクに対して実験的に検証し, 有効限界化がよりよい探索とより堅牢な訓練につながることを示した。
論文 参考訳(メタデータ) (2022-10-03T15:09:12Z) - Sequential Information Design: Markov Persuasion Process and Its
Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。
MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。
我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文 参考訳(メタデータ) (2022-02-22T05:41:43Z) - Convergence Rates of Average-Reward Multi-agent Reinforcement Learning
via Randomized Linear Programming [41.30044824711509]
我々は,グローバル報酬が地域報酬の総和であり,共同政策がエージェントの限界と州全体の可観測性に分解される場合に焦点を当てる。
エージェントが局所的なサドル点問題を解き、局所的な重み付き平均化を行うマルチエージェント拡張を開発する。
準グロブリー最適解を得るためのサンプルの複雑さは、状態空間と作用空間の濃度に対する厳密な依存と一致することを確かめる。
論文 参考訳(メタデータ) (2021-10-22T03:48:41Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。