論文の概要: Emergence of Fair Leaders via Mediators in Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.02421v1
- Date: Mon, 04 Aug 2025 13:42:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.360184
- Title: Emergence of Fair Leaders via Mediators in Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習におけるメディエーターによるフェアリーダーの創出
- Authors: Akshay Dodwadmath, Setareh Maghsudi,
- Abstract要約: Stackelbergゲームとその結果として得られる均衡は、多エージェント強化学習文学において注目を集めている。
リーダー選択プロセスのバイアスは、不公平な結果をもたらす可能性がある。
仲介者の存在は、公正な行動をとる利己的なエージェントにつながり、結果として、エージェントのリターンの全体的公正性が高くなることを示す。
- 参考スコア(独自算出の注目度): 3.8827097541507043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stackelberg games and their resulting equilibria have received increasing attention in the multi-agent reinforcement learning literature. Each stage of a traditional Stackelberg game involves a leader(s) acting first, followed by the followers. In situations where the roles of leader(s) and followers can be interchanged, the designated role can have considerable advantages, for example, in first-mover advantage settings. Then the question arises: Who should be the leader and when? A bias in the leader selection process can lead to unfair outcomes. This problem is aggravated if the agents are self-interested and care only about their goals and rewards. We formally define this leader selection problem and show its relation to fairness in agents' returns. Furthermore, we propose a multi-agent reinforcement learning framework that maximizes fairness by integrating mediators. Mediators have previously been used in the simultaneous action setting with varying levels of control, such as directly performing agents' actions or just recommending them. Our framework integrates mediators in the Stackelberg setting with minimal control (leader selection). We show that the presence of mediators leads to self-interested agents taking fair actions, resulting in higher overall fairness in agents' returns.
- Abstract(参考訳): Stackelbergゲームとその結果として得られる均衡は、多エージェント強化学習文学において注目を集めている。
伝統的なスタックルバーグゲームの各ステージは、まずリーダーが行動し、次にフォロワーが行動する。
リーダーとフォロワーの役割が交換できる状況において、指定された役割は、例えばファースト・モーバー・アドバンテージ・セッティングにおいて、かなりのアドバンテージを持つことができる。
では、誰がリーダーになるべきか、いつなのか、という疑問が浮かび上がってくる。
リーダー選択プロセスのバイアスは、不公平な結果をもたらす可能性がある。
この問題は、エージェントが自己関心を持ち、目標と報酬のみに関心がある場合、悪化する。
我々は、このリーダー選択問題を正式に定義し、エージェントのリターンにおける公平性との関係を示す。
さらに,媒体の統合による公正度を最大化するマルチエージェント強化学習フレームワークを提案する。
メディエーターは以前、エージェントのアクションを直接実行する、あるいは単に推奨するなど、さまざまなレベルのコントロールを持つ同時アクション設定で使用されてきた。
我々のフレームワークは、最小限の制御(リーダー選択)でStackelberg設定にメディエータを統合する。
仲介者の存在は、公正な行動をとる利己的なエージェントにつながり、結果として、エージェントのリターンの全体的公正性が高くなることを示す。
関連論文リスト
- Fair Contracts in Principal-Agent Games with Heterogeneous Types [2.2257399538053817]
フェアネスを意識したプリンシパルは、逐次的社会的ジレンマにおいてエージェント間で結果が等しくなる等質な線形契約を学習できることを示す。
その結果,システム全体の性能を保ちながら,システムにおける株式と安定を促進できることが示されている。
論文 参考訳(メタデータ) (2025-06-18T21:25:31Z) - Incentivized Learning in Principal-Agent Bandit Games [62.41639598376539]
この作品では、主役がエージェントを通してしか環境と対話できないような、主役と主役のバンディットゲームが繰り返されている。
校長は、報酬を補うインセンティブを提供することで、エージェントの判断に影響を与えることができる。
我々は,マルチアームと線形コンテキスト設定の両方において,プリンシパルの後悔に対して,ほぼ最適な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-06T16:00:46Z) - When Should a Leader Act Suboptimally? The Role of Inferability in Repeated Stackelberg Games [28.856644679990357]
我々は、リーダーとフォロワーが繰り返し対話する観察結果を用いて、Stackelbergゲームを用いて、推論可能性の問題をモデル化する。
様々なゲーム設定において、不確実性ギャップは、リーダーの戦略の相互作用数とセマンティレベルの関数によって上限づけられていることが示される。
リーダーの準最適戦略が大きな推論可能性ギャップに悩まされる可能性のある、一連のゲームを特定します。
論文 参考訳(メタデータ) (2023-09-30T19:08:05Z) - Mediated Multi-Agent Reinforcement Learning [3.8581550679584473]
社会福祉を最大化するために、政策グラデーションを持つエージェントとともに仲介者を訓練する方法を示す。
行列ゲームと反復ゲームにおける実験は,マルチエージェント強化学習におけるメディエータの適用の可能性を強調した。
論文 参考訳(メタデータ) (2023-06-14T10:31:37Z) - Learning to Transfer Role Assignment Across Team Sizes [48.43860606706273]
チーム規模で役割の割り当てと移譲を学ぶためのフレームワークを提案する。
ロールベースの信用割当構造を再利用することで、より大きな強化学習チームの学習プロセスが促進されることを示す。
論文 参考訳(メタデータ) (2022-04-17T11:22:01Z) - Self-Training with Differentiable Teacher [80.62757989797095]
自己学習は、様々な半教師付きおよび弱教師付き学習タスクで大きな成功を収める。
この手法は、教師が擬似ラベルを生成し、生徒が予測を行う教師学生の枠組みとして解釈できる。
そこで我々は,教師学生をStackelbergゲームとして扱う,差別化可能な自己学習法を提案する。
論文 参考訳(メタデータ) (2021-09-15T02:06:13Z) - Who Leads and Who Follows in Strategic Classification? [82.44386576129295]
戦略分類における役割の順序は、決定者とエージェントが互いの行動に適応する相対周波数によって決定される。
更新頻度を自由に選択できる意思決定者は,いずれの順番でスタックルバーグ均衡に収束する学習力学を誘導できることを示す。
論文 参考訳(メタデータ) (2021-06-23T16:48:46Z) - Improving Social Welfare While Preserving Autonomy via a Pareto Mediator [15.10019081251098]
エージェントが自身のアクションを選択したり、中央のメディエーターにアクションを委譲したりできるドメインでは、オープンな質問は、エージェントを委譲する代わりに仲介者がどのようにアクションをとるべきかである。
既存のアプローチでは、デリゲートエージェントを使用して非デリゲートエージェントを罰し、すべてのエージェントを委譲しようとする。
エージェントを悪化させることなく、エージェントの委譲結果を改善することを目的としたPareto Mediatorを導入する。
論文 参考訳(メタデータ) (2021-06-07T19:34:42Z) - Adversarial Training as Stackelberg Game: An Unrolled Optimization
Approach [91.74682538906691]
逆行訓練はディープラーニングモデルの一般化性能を向上させることが示されている。
Stackelbergゲームとして, 対人トレーニングを定式化するStackelberg Adversarial Training (SALT)を提案する。
論文 参考訳(メタデータ) (2021-04-11T00:44:57Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。