論文の概要: Cooperation and Fairness in Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2410.14916v1
- Date: Sat, 19 Oct 2024 00:10:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:16:32.198537
- Title: Cooperation and Fairness in Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習における協調と公正性
- Authors: Jasmine Jerry Aloor, Siddharth Nayak, Sydney Dolan, Hamsa Balakrishnan,
- Abstract要約: 移動・輸送システムの資源に制約のある環境では、公平さを犠牲にして効率性を実現することができる。
マルチエージェント強化学習(MARL)を用いた分散エージェント群に対する公平なマルチエージェントナビゲーションの問題を考える。
このモデルでは, ランダムな代入を用いて訓練したベースラインに対して, 効率が14%向上し, 公平性が5%向上することがわかった。
- 参考スコア(独自算出の注目度): 6.164771707307928
- License:
- Abstract: Multi-agent systems are trained to maximize shared cost objectives, which typically reflect system-level efficiency. However, in the resource-constrained environments of mobility and transportation systems, efficiency may be achieved at the expense of fairness -- certain agents may incur significantly greater costs or lower rewards compared to others. Tasks could be distributed inequitably, leading to some agents receiving an unfair advantage while others incur disproportionately high costs. It is important to consider the tradeoffs between efficiency and fairness. We consider the problem of fair multi-agent navigation for a group of decentralized agents using multi-agent reinforcement learning (MARL). We consider the reciprocal of the coefficient of variation of the distances traveled by different agents as a measure of fairness and investigate whether agents can learn to be fair without significantly sacrificing efficiency (i.e., increasing the total distance traveled). We find that by training agents using min-max fair distance goal assignments along with a reward term that incentivizes fairness as they move towards their goals, the agents (1) learn a fair assignment of goals and (2) achieve almost perfect goal coverage in navigation scenarios using only local observations. For goal coverage scenarios, we find that, on average, our model yields a 14% improvement in efficiency and a 5% improvement in fairness over a baseline trained using random assignments. Furthermore, an average of 21% improvement in fairness can be achieved compared to a model trained on optimally efficient assignments; this increase in fairness comes at the expense of only a 7% decrease in efficiency. Finally, we extend our method to environments in which agents must complete coverage tasks in prescribed formations and show that it is possible to do so without tailoring the models to specific formation shapes.
- Abstract(参考訳): マルチエージェントシステムは共有コスト目標を最大化するために訓練され、通常はシステムレベルの効率を反映する。
しかし、移動・輸送システムの資源に制約のある環境では、効率性は公平さを犠牲にして達成される可能性がある。
タスクは必然的に分散され、不公平な優位性を受けるエージェントもいれば、不当に高いコストを被るエージェントもいる。
効率性と公平性のトレードオフを考慮することが重要です。
マルチエージェント強化学習(MARL)を用いた分散エージェント群に対する公平なマルチエージェントナビゲーションの問題点を考察する。
本研究では,異なるエージェントによって移動される距離の変動係数を公平性の尺度として考察し,効率を著しく犠牲にすることなく,エージェントが公平になることができるかどうかを検討する(つまり,移動距離を増大させる)。
目標に向かって進むときの公平さを動機づける報奨語とともにmin-max Fair distance goal assignmentsを用いたトレーニングエージェントを用いて,(1)目標の公平な割り当てを学習し,(2)局所観測のみを用いてナビゲーションシナリオにおけるほぼ完璧な目標カバレッジを達成することを発見した。
ゴールカバレッジのシナリオでは、平均して、我々のモデルは効率が14%向上し、ランダムな割り当てを用いてトレーニングされたベースラインよりも5%向上していることがわかった。
さらに、最適に効率的な割り当てを訓練したモデルと比較して、フェアネスの平均21%の改善が達成でき、このフェアネスの増加は、効率の7%の低下を犠牲にしている。
最後に,本手法を,エージェントが所定の構成のカバレッジタスクを完了しなければならない環境に拡張し,モデルを特定の構成形状に調整することなく実施可能であることを示す。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - FairLoRA: Unpacking Bias Mitigation in Vision Models with Fairness-Driven Low-Rank Adaptation [3.959853359438669]
低ランク適応のための新しいフェアネス特化正規化器であるFairLoRAについて紹介する。
以上の結果から,偏見を緩和するためのより高いランクの必要性は普遍的ではなく,事前学習モデルやデータセット,タスクといった要因に依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-22T18:50:36Z) - Fair Few-shot Learning with Auxiliary Sets [53.30014767684218]
多くの機械学習(ML)タスクでは、ラベル付きデータサンプルしか収集できないため、フェアネスのパフォーマンスが低下する可能性がある。
本稿では,限定的なトレーニングサンプルを用いたフェアネス認識学習課題をemphfair few-shot Learning問題として定義する。
そこで我々は,学習した知識をメタテストタスクに一般化し,様々なメタトレーニングタスクに公平な知識を蓄積する新しいフレームワークを考案した。
論文 参考訳(メタデータ) (2023-08-28T06:31:37Z) - Using Simple Incentives to Improve Two-Sided Fairness in Ridesharing
Systems [27.34946988130242]
我々は、このILPの定式化の一環として、オンラインで実装できるシンプルなインセンティブに基づくフェアネススキームを提案する。
乗客グループとドライバーフェアネスの2つの異なるユースケースに対して、これらのフェアネスインセンティブをどのように定式化できるかを示す。
論文 参考訳(メタデータ) (2023-03-25T02:24:27Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - Improving Robust Fairness via Balance Adversarial Training [51.67643171193376]
対人訓練 (AT) 法は, 対人攻撃に対して有効であるが, 異なるクラス間での精度と頑健さの相違が激しい。
本稿では,頑健な公正性問題に対処するために,BAT(Adversarial Training)を提案する。
論文 参考訳(メタデータ) (2022-09-15T14:44:48Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Decentralized scheduling through an adaptive, trading-based multi-agent
system [1.7403133838762448]
多エージェント強化学習システムでは、あるエージェントの動作が他のエージェントの報酬に悪影響を及ぼす可能性がある。
この作業は、エージェントが入ってくるジョブをコアに割り当てる責任を負うシミュレーションスケジューリング環境に、トレーディングアプローチを適用します。
エージェントは計算コアの使用権を交換して、低優先度で低報酬のジョブよりも高速に、高利益のジョブを処理できる。
論文 参考訳(メタデータ) (2022-07-05T13:50:18Z) - Towards Equal Opportunity Fairness through Adversarial Learning [64.45845091719002]
逆行訓練は、自然言語処理におけるバイアス緩和の一般的なアプローチである。
本稿では、よりリッチな特徴を生み出すために、ターゲットクラスをインプットとして利用する、対位訓練のための拡張判別器を提案する。
論文 参考訳(メタデータ) (2022-03-12T02:22:58Z) - Fairness for Cooperative Multi-Agent Learning with Equivariant Policies [24.92668968807012]
我々は協調型マルチエージェント学習のレンズを通して公正性を研究する。
マルチエージェント学習のためのグループベースのフェアネス尺度であるチームフェアネスを導入する。
次に、ポリシー最適化にチームフェアネスを取り入れます。
論文 参考訳(メタデータ) (2021-06-10T13:17:46Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。