論文の概要: Designing Long-term Group Fair Policies in Dynamical Systems
- arxiv url: http://arxiv.org/abs/2311.12447v1
- Date: Tue, 21 Nov 2023 08:58:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 01:33:09.112857
- Title: Designing Long-term Group Fair Policies in Dynamical Systems
- Title(参考訳): 動的システムにおける長期グループフェアポリシーの設計
- Authors: Miriam Rateike, Isabel Valera and Patrick Forr\'e
- Abstract要約: 本稿では,力学系におけるグループフェアネスの長期化を実現するための新しい枠組みを提案する。
我々のフレームワークは、長期にわたってシステムの標的となる公平な状態に収束する、時間に依存しないポリシーを特定できる。
- 参考スコア(独自算出の注目度): 12.115106776644156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neglecting the effect that decisions have on individuals (and thus, on the
underlying data distribution) when designing algorithmic decision-making
policies may increase inequalities and unfairness in the long term - even if
fairness considerations were taken in the policy design process. In this paper,
we propose a novel framework for achieving long-term group fairness in
dynamical systems, in which current decisions may affect an individual's
features in the next step, and thus, future decisions. Specifically, our
framework allows us to identify a time-independent policy that converges, if
deployed, to the targeted fair stationary state of the system in the long term,
independently of the initial data distribution. We model the system dynamics
with a time-homogeneous Markov chain and optimize the policy leveraging the
Markov chain convergence theorem to ensure unique convergence. We provide
examples of different targeted fair states of the system, encompassing a range
of long-term goals for society and policymakers. Furthermore, we show how our
approach facilitates the evaluation of different long-term targets by examining
their impact on the group-conditional population distribution in the long term
and how it evolves until convergence.
- Abstract(参考訳): アルゴリズムによる意思決定方針を設計する際の決定が個人(つまり基礎となるデータ分布)に与える影響を無視することは、長期的には不平等と不公平を増大させる可能性がある。
本稿では,動的システムにおける長期的な集団公平性を実現するための新しい枠組みを提案する。
特に,本フレームワークでは,初期データ分布とは独立に,長期にわたって,対象の公平な定常状態に収束する時間に依存しないポリシを識別することができる。
我々は,システムダイナミクスを時間均質マルコフ連鎖でモデル化し,マルコフ連鎖収束定理を利用して一意的な収束を保証するポリシーを最適化する。
我々は, 社会や政策立案者に対する長期的目標を包含する, 異なる公平なシステムの例を示す。
さらに,本手法が長期集団条件分布に与える影響や,収束までどのように進化していくかを検討することで,異なる長期目標の評価をいかに促進するかを示す。
関連論文リスト
- Long-Term Fairness in Sequential Multi-Agent Selection with Positive Reinforcement [21.44063458579184]
大学入学や採用のような選抜プロセスでは、少数派からの応募者に対する偏見は肯定的なフィードバックをもたらすと仮定される。
グリーディスコアとフェアネスのバランスをとるマルチエージェント・フェア・グリーディ政策を提案する。
以上の結果から, 正の強化は長期的公正性にとって有望なメカニズムであるが, 進化モデルの変動に頑健な政策を慎重に設計する必要があることが示唆された。
論文 参考訳(メタデータ) (2024-07-10T04:03:23Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Tier Balancing: Towards Dynamic Fairness over Underlying Causal Factors [11.07759054787023]
長期的な公正性の追求には、意思決定と基礎となるデータ生成プロセスの相互作用が含まれる。
技術的には難しいが、達成すべき自然な概念であるティアバランシングを提案します。
特定力学の下では、一般に1段階の介入によってしか長期的な公正化の目標を達成できないことが証明される。
論文 参考訳(メタデータ) (2023-01-21T18:05:59Z) - Policy Optimization with Advantage Regularization for Long-Term Fairness
in Decision Systems [14.095401339355677]
長期的な公正性は,学習に基づく意思決定システムの設計と展開において重要な要素である。
近年の研究では,マルコフ決定プロセス(MDP)を用いて意思決定を長期的公正性要件で定式化する手法が提案されている。
深層強化学習による政策最適化手法は、より厳密な意思決定ポリシーを見つけるのに有効であることを示す。
論文 参考訳(メタデータ) (2022-10-22T20:41:36Z) - Towards Return Parity in Markov Decision Processes [36.96748490812215]
マルコフ決定過程(MDP)における公平性問題について検討する。
我々は、異なる人口集団のMDPが同じ報酬を達成するために必要となるフェアネスの概念であるリターンパリティを提案する。
解析定理により、状態訪問分布アライメントを伴う共有グループポリシーを学習することにより、戻り値の不一致を軽減するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-19T23:25:38Z) - Fair Incentives for Repeated Engagement [0.46040036610482665]
我々は、参加決定が受け取ったインセンティブに依存するエージェントに直面する場合、維持のための最適な金融インセンティブスキームを見つけるという課題について検討する。
明示的な差別がなくても、システムの種類構成を変化させることで、ポリシーが無意識に異なるタイプのエージェントを識別できることが示される。
論文 参考訳(メタデータ) (2021-10-28T04:13:53Z) - On the Sample Complexity and Metastability of Heavy-tailed Policy Search
in Continuous Control [47.71156648737803]
強化学習(Reinforcement learning)は、システムダイナミクスモデルなしで、時間をかけてインセンティブを順次明らかにする、インタラクティブな意思決定のためのフレームワークである。
定義された連鎖を特徴付け、テールインデックスのレヴィプロセスに関連するポリシーがより広いピークに収まることを識別する。
論文 参考訳(メタデータ) (2021-06-15T20:12:44Z) - Offline Policy Selection under Uncertainty [113.57441913299868]
我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。
政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。
BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
論文 参考訳(メタデータ) (2020-12-12T23:09:21Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。