Fugu-MT 論文翻訳(概要): Learning Fair Policies in Decentralized Cooperative Multi-Agent Reinforcement Learning

論文の概要: Learning Fair Policies in Decentralized Cooperative Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2012.09421v2
Date: Mon, 1 Mar 2021 05:32:23 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-02 21:25:52.261142
Title: Learning Fair Policies in Decentralized Cooperative Multi-Agent Reinforcement Learning
Title（参考訳）: 分散協調型マルチエージェント強化学習における公平な学習政策
Authors: Matthieu Zimmer, Claire Glanois, Umer Siddique, Paul Weng
Abstract要約: 深い)協調的マルチエージェント強化学習(MARL)における公正な政策の学習の問題を検討する。本稿では,フェアネスの2つの側面を考慮した2つのサブネットワークからなるニューラルネットワークアーキテクチャを提案する。
参考スコア（独自算出の注目度）: 12.215625537879108
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We consider the problem of learning fair policies in (deep) cooperative multi-agent reinforcement learning (MARL). We formalize it in a principled way as the problem of optimizing a welfare function that explicitly encodes two important aspects of fairness: efficiency and equity. As a solution method, we propose a novel neural network architecture, which is composed of two sub-networks specifically designed for taking into account the two aspects of fairness. In experiments, we demonstrate the importance of the two sub-networks for fair optimization. Our overall approach is general as it can accommodate any (sub)differentiable welfare function. Therefore, it is compatible with various notions of fairness that have been proposed in the literature (e.g., lexicographic maximin, generalized Gini social welfare function, proportional fairness). Our solution method is generic and can be implemented in various MARL settings: centralized training and decentralized execution, or fully decentralized. Finally, we experimentally validate our approach in various domains and show that it can perform much better than previous methods.
Abstract（参考訳）: 我々は,協調型マルチエージェント強化学習(MARL)における公正な政策学習の問題を考える。公平性の2つの重要な側面を明示的にエンコードする福祉関数を最適化する問題、すなわち効率と平等を原則的に定式化する。解法として,フェアネスの2つの側面を考慮した2つのサブネットワークからなるニューラルネットワークアーキテクチャを提案する。実験では、公平な最適化のために2つのサブネットワークの重要性を示す。我々の全体的なアプローチは、あらゆる(サブ)微分可能福祉機能に対応できるため、概して一般的である。したがって、文献で提案された公平性の様々な概念(例えば、レキシコグラフィー・マキシミン、一般化されたジニ社会福祉機能、比例フェアネス)と互換性がある。私たちのソリューションは汎用的で,集中トレーニングや分散実行,あるいは完全な分散化といった,さまざまなmarl設定で実装可能です。最後に,様々な領域におけるアプローチを実験的に検証し,従来の手法よりもはるかに優れた性能を示す。

関連論文リスト

DQ4FairIM: Fairness-aware Influence Maximization using Deep Reinforcement Learning [1.3474501014756584]
影響最大化(IM)問題は、ソーシャルネットワークにおける影響の広がりを最大化するために、所定の予算内でシードノードのセットを選択することを目的としている。本稿では,すべてのコミュニティにおける公平な影響を確実にする,強化学習(Reinforcement Learning, RL)を用いた公正なIM手法を提案する。我々は,合成ベンチマークと実世界のネットワークを用いて,本手法をフェアネスに依存しない,フェアネスを意識したベースラインと比較する。
論文参考訳（メタデータ） (2025-11-29T16:31:20Z)
DECAF: Learning to be Fair in Multi-agent Resource Allocation [4.788163807490197]
本研究では,資源集中配置における公平かつ効率的な政策を学習するための手法を提案する。提案手法は,マルチエージェントシステムにおける公平性のための新しい,汎用的なフレームワークにおいて,長期的公正性学習に適用される。
論文参考訳（メタデータ） (2025-02-06T18:29:11Z)
Multi-Agent Reinforcement Learning from Human Feedback: Data Coverage and Algorithmic Techniques [65.55451717632317]
我々は,MARLHF(Multi-Agent Reinforcement Learning from Human Feedback)について検討し,理論的基礎と実証的検証の両方について検討した。我々は,このタスクを,一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ均衡を識別するものとして定義する。本研究は,MARLHFの多面的アプローチを基礎として,効果的な嗜好に基づくマルチエージェントシステムの実現を目指している。
論文参考訳（メタデータ） (2024-09-01T13:14:41Z)
ROMA-iQSS: An Objective Alignment Approach via State-Based Value Learning and ROund-Robin Multi-Agent Scheduling [44.276285521929424]
本稿では,エージェントが独立して最適な状態を発見できる分散状態ベース価値学習アルゴリズムを提案する。我々の理論分析は、我々のアプローチが分散化されたエージェントを最適な集団政策へと導くことを示している。さらに実験により,本手法が既存の分散状態ベースおよび行動ベース価値学習戦略より優れていることを示す。
論文参考訳（メタデータ） (2024-04-05T09:39:47Z)
MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文参考訳（メタデータ） (2024-02-14T03:56:27Z)
Achieving Fairness in Multi-Agent Markov Decision Processes Using Reinforcement Learning [30.605881670761853]
有限水平エピソードMDPにおける公平性を実現するための強化学習手法を提案する。このようなアプローチは、エピソード数の観点から、サブ線形後悔を実現することを示す。
論文参考訳（メタデータ） (2023-06-01T03:43:53Z)
Expeditious Saliency-guided Mix-up through Random Gradient Thresholding [89.59134648542042]
混合学習アプローチはディープニューラルネットワークの一般化能力向上に有効であることが証明されている。本稿では,両経路の分岐点に位置する新しい手法を提案する。我々はR-Mixという手法を「Random Mix-up」という概念にちなむ。より良い意思決定プロトコルが存在するかどうかという問題に対処するために、我々は、ミックスアップポリシーを決定する強化学習エージェントを訓練する。
論文参考訳（メタデータ） (2022-12-09T14:29:57Z)
FIXED: Frustratingly Easy Domain Generalization with Mixup [53.782029033068675]
ドメイン一般化(Domain Generalization, DG)は、複数のトレーニングドメインから一般化可能なモデルを学ぶことを目的としている。一般的な戦略は、Mixupcitezhang 2018mixupのようなメソッドによる一般化のためにトレーニングデータを拡張することである。我々は、MixupベースのDG、すなわちドメイン不変の特徴mIXup(FIX)の簡易かつ効果的な拡張を提案する。提案手法は,9つの最先端手法よりも優れており,試験精度の面では,ベースラインの平均6.5%を上回っている。
論文参考訳（メタデータ） (2022-11-07T09:38:34Z)
How Robust is Your Fairness? Evaluating and Sustaining Fairness under Unseen Distribution Shifts [107.72786199113183]
CUMA(CUrvature Matching)と呼ばれる新しいフェアネス学習手法を提案する。 CUMAは、未知の分布シフトを持つ未知の領域に一般化可能な頑健な公正性を達成する。提案手法を3つの人気フェアネスデータセットで評価する。
論文参考訳（メタデータ） (2022-07-04T02:37:50Z)
Revisiting Some Common Practices in Cooperative Multi-Agent Reinforcement Learning [11.91425153754564]
高いマルチモーダルな報酬ランドスケープ、価値分解、パラメータ共有が問題になり、望ましくない結果をもたらす可能性があることを示す。対照的に、個々のポリシーを持つポリシー勾配(PG)法は、これらの場合において最適解に確実に収束する。本稿では,多エージェントPGアルゴリズムの実装に関する実践的提案を行う。
論文参考訳（メタデータ） (2022-06-15T13:03:05Z)
MultiFair: Multi-Group Fairness in Machine Learning [52.24956510371455]
機械学習におけるマルチグループフェアネスの研究(MultiFair) この問題を解決するために,汎用的なエンドツーエンドのアルゴリズムフレームワークを提案する。提案するフレームワークは多くの異なる設定に一般化可能である。
論文参考訳（メタデータ） (2021-05-24T02:30:22Z)
HyperFair: A Soft Approach to Integrating Fairness Criteria [17.770533330914102]
我々は,ハイブリッドレコメンデータシステムにおいて,ソフトフェアネス制約を強制するフレームワークであるHyperFairを紹介する。まず,確率的ソフトロジックレコメンデータシステムテンプレートの拡張として提案する手法を提案する。複数のHyperFairハイブリッドレコメンデータを実装することで,私たちのアプローチを実証的に検証し,最先端のフェアレコメンデータと比較する。
論文参考訳（メタデータ） (2020-09-05T05:00:06Z)
F2A2: Flexible Fully-decentralized Approximate Actor-critic for Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文参考訳（メタデータ） (2020-04-17T14:56:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。