論文の概要: Fairness Aware Reinforcement Learning via Proximal Policy Optimization
- arxiv url: http://arxiv.org/abs/2502.03953v1
- Date: Thu, 06 Feb 2025 10:45:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:31:20.016983
- Title: Fairness Aware Reinforcement Learning via Proximal Policy Optimization
- Title(参考訳): 近接政策最適化による公正な強化学習
- Authors: Gabriele La Malfa, Jie M. Zhang, Michael Luck, Elizabeth Black,
- Abstract要約: 本稿では,PPOにおける公正性について,人口統計学的公正性,対実的公正性,条件的統計的公正性から導かれるペナルティ項について紹介する。
我々は,資源収集に焦点を当てた協調的かつ競争的なMASであるAlelopathic Harvestゲームにおいて,我々のアプローチを評価する。
- 参考スコア(独自算出の注目度): 7.061167083587786
- License:
- Abstract: Fairness in multi-agent systems (MAS) focuses on equitable reward distribution among agents in scenarios involving sensitive attributes such as race, gender, or socioeconomic status. This paper introduces fairness in Proximal Policy Optimization (PPO) with a penalty term derived from demographic parity, counterfactual fairness, and conditional statistical parity. The proposed method balances reward maximisation with fairness by integrating two penalty components: a retrospective component that minimises disparities in past outcomes and a prospective component that ensures fairness in future decision-making. We evaluate our approach in the Allelopathic Harvest game, a cooperative and competitive MAS focused on resource collection, where some agents possess a sensitive attribute. Experiments demonstrate that fair-PPO achieves fairer policies across all fairness metrics than classic PPO. Fairness comes at the cost of reduced rewards, namely the Price of Fairness, although agents with and without the sensitive attribute renounce comparable amounts of rewards. Additionally, the retrospective and prospective penalties effectively change the agents' behaviour and improve fairness. These findings underscore the potential of fair-PPO to address fairness challenges in MAS.
- Abstract(参考訳): マルチエージェントシステム(MAS)の公正性は、人種、性別、社会経済状態などのセンシティブな属性を含むシナリオにおいて、エージェント間の公平な報酬分布に焦点を当てる。
本稿では,PPOにおける公正性について,人口統計学的公正性,対実的公正性,条件的統計的公正性から導かれるペナルティ項について紹介する。
提案手法は,過去の成果の相違を最小化する振り返り成分と,今後の意思決定における公平性を保証する予見成分の2つのペナルティ成分を統合することにより,報酬の最大化と公正性のバランスをとる。
我々は,アレルパシー・ハーベスト(Alelopathic Harvest)ゲームにおいて,資源収集に焦点を絞った協調的かつ競争的なMASとして,エージェントがセンシティブな属性を持つようなアプローチを評価した。
実験により、Fair-PPOは古典的なPPOよりも全てのフェアネス指標でより公平なポリシーを達成することが示された。
フェアネスは報酬の削減、すなわちフェアネスの価格を犠牲にするが、センシティブな属性を持つエージェントは同等の報酬を放棄する。
さらに、振り返りと先延ばしの罰は、エージェントの振る舞いを効果的に変え、公平性を改善する。
これらの結果は,MASの公平性問題に対処するフェアPPOの可能性を明らかにするものである。
関連論文リスト
- Using Protected Attributes to Consider Fairness in Multi-Agent Systems [7.061167083587786]
マルチエージェントシステム(MAS)の公正性は、システムのルール、エージェントの振る舞い、それらの特性など、さまざまな要因に依存する。
機械学習に基づく意思決定におけるバイアスに対処するアルゴリズムフェアネスの研究から着想を得た。
我々は、アルゴリズムの公正度文献から、自己関心のあるエージェントが環境内で相互作用するマルチエージェント設定まで、公平度メトリクスを適応させる。
論文 参考訳(メタデータ) (2024-10-16T08:12:01Z) - Fairness Incentives in Response to Unfair Dynamic Pricing [7.991187769447732]
我々は基本的な模擬経済を設計し、公正な価格設定の行動を採用するよう企業にインセンティブを与えるために法人税のスケジュールを作成する。
可能な政策シナリオを網羅するため、我々は、ソーシャルプランナーの学習問題を、マルチアームバンディット、コンテキストバンディット、およびフル強化学習(RL)問題として定式化する。
社会的福祉はフェアネス非依存ベースラインのそれよりも改善し,マルチアームおよびコンテキストバンディット設定のための分析学的に最適なフェアネス対応ベースラインにアプローチすることを発見した。
論文 参考訳(メタデータ) (2024-04-22T23:12:58Z) - Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - Causal Fairness for Outcome Control [68.12191782657437]
本稿では,自動システムにおいて,公平かつ公平な結果変数を最適化することを目的とした,結果制御と呼ばれる特定の意思決定タスクについて検討する。
本稿では、まず因果レンズを通して利益の概念を分析し、特定の個人が肯定的な決定によってどれだけの利益を得られるかを明らかにする。
次に、保護された属性の影響を受けている可能性があることに留意し、これを分析するために使用できる因果的ツールを提案する。
論文 参考訳(メタデータ) (2023-06-08T09:31:18Z) - Fair-CDA: Continuous and Directional Augmentation for Group Fairness [48.84385689186208]
公正な制約を課すための詳細なデータ拡張戦略を提案する。
グループ間の感性のある特徴の遷移経路のモデルを正規化することにより、グループフェアネスを実現することができることを示す。
提案手法はデータ生成モデルを仮定せず,精度と公平性の両方に優れた一般化を実現する。
論文 参考訳(メタデータ) (2023-04-01T11:23:00Z) - Proportional Fairness in Obnoxious Facility Location [70.64736616610202]
この問題に対して,距離に基づく比例フェアネスの概念の階層構造を提案する。
決定論的かつランダムなメカニズムを考察し、比例フェアネスの価格に関する厳密な境界を計算する。
モデルの拡張が2つあることを示す。
論文 参考訳(メタデータ) (2023-01-11T07:30:35Z) - Unfairness Despite Awareness: Group-Fair Classification with Strategic
Agents [37.31138342300617]
戦略エージェントは、より良好な結果を得るために観察された特徴ベクトルを操作する能力とインセンティブの両方を持っている可能性があることを示す。
さらに、有利な群が過剰に表現される領域で公平な学習を行う際に、公平な分類器の選択性が増大し、したがって公正さが失われることが示される。
論文 参考訳(メタデータ) (2021-12-06T02:42:43Z) - Balancing Accuracy and Fairness for Interactive Recommendation with
Reinforcement Learning [68.25805655688876]
推薦者の公正さは、おそらく伝統的な推薦者によって引き起こされる偏見と差別によって、注目を集めている。
IRSにおける精度と公平性の長期的バランスを動的に維持するための強化学習ベースのフレームワークであるFairRecを提案する。
大規模な実験は、FairRecが優れたレコメンデーション品質を維持しながら、公正性を改善することを実証する。
論文 参考訳(メタデータ) (2021-06-25T02:02:51Z) - Fairness for Cooperative Multi-Agent Learning with Equivariant Policies [24.92668968807012]
我々は協調型マルチエージェント学習のレンズを通して公正性を研究する。
マルチエージェント学習のためのグループベースのフェアネス尺度であるチームフェアネスを導入する。
次に、ポリシー最適化にチームフェアネスを取り入れます。
論文 参考訳(メタデータ) (2021-06-10T13:17:46Z) - Fairness, Welfare, and Equity in Personalized Pricing [88.9134799076718]
顧客特性に基づくパーソナライズ価格における公平性、福祉、株式の配慮の相互作用について検討する。
選択ワクチンの価格補助金と、マイクロクレジットの下流結果に対するパーソナライズされた利率の影響の2つの設定において、パーソナライズされた価格の潜在的利点を示す。
論文 参考訳(メタデータ) (2020-12-21T01:01:56Z) - Achieving Proportionality up to the Maximin Item with Indivisible Goods [14.002498730240902]
我々は、分割不可能な商品をかなり配置する問題を研究し、古典的公平性の概念である比例性に焦点をあてる。
最近の研究で、比例性(PROPx)の近似バージョンでさえ、小さなインスタンスでも達成できないことが証明されている。
最大5つのエージェントが付加価値を持つ場合において、この概念を満たすアロケーションにどのように到達するかを示す。
論文 参考訳(メタデータ) (2020-09-20T19:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。