論文の概要: Designing Long-term Group Fair Policies in Dynamical Systems
- arxiv url: http://arxiv.org/abs/2311.12447v1
- Date: Tue, 21 Nov 2023 08:58:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 01:33:09.112857
- Title: Designing Long-term Group Fair Policies in Dynamical Systems
- Title(参考訳): 動的システムにおける長期グループフェアポリシーの設計
- Authors: Miriam Rateike, Isabel Valera and Patrick Forr\'e
- Abstract要約: 本稿では,力学系におけるグループフェアネスの長期化を実現するための新しい枠組みを提案する。
我々のフレームワークは、長期にわたってシステムの標的となる公平な状態に収束する、時間に依存しないポリシーを特定できる。
- 参考スコア(独自算出の注目度): 12.115106776644156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neglecting the effect that decisions have on individuals (and thus, on the
underlying data distribution) when designing algorithmic decision-making
policies may increase inequalities and unfairness in the long term - even if
fairness considerations were taken in the policy design process. In this paper,
we propose a novel framework for achieving long-term group fairness in
dynamical systems, in which current decisions may affect an individual's
features in the next step, and thus, future decisions. Specifically, our
framework allows us to identify a time-independent policy that converges, if
deployed, to the targeted fair stationary state of the system in the long term,
independently of the initial data distribution. We model the system dynamics
with a time-homogeneous Markov chain and optimize the policy leveraging the
Markov chain convergence theorem to ensure unique convergence. We provide
examples of different targeted fair states of the system, encompassing a range
of long-term goals for society and policymakers. Furthermore, we show how our
approach facilitates the evaluation of different long-term targets by examining
their impact on the group-conditional population distribution in the long term
and how it evolves until convergence.
- Abstract(参考訳): アルゴリズムによる意思決定方針を設計する際の決定が個人(つまり基礎となるデータ分布)に与える影響を無視することは、長期的には不平等と不公平を増大させる可能性がある。
本稿では,動的システムにおける長期的な集団公平性を実現するための新しい枠組みを提案する。
特に,本フレームワークでは,初期データ分布とは独立に,長期にわたって,対象の公平な定常状態に収束する時間に依存しないポリシを識別することができる。
我々は,システムダイナミクスを時間均質マルコフ連鎖でモデル化し,マルコフ連鎖収束定理を利用して一意的な収束を保証するポリシーを最適化する。
我々は, 社会や政策立案者に対する長期的目標を包含する, 異なる公平なシステムの例を示す。
さらに,本手法が長期集団条件分布に与える影響や,収束までどのように進化していくかを検討することで,異なる長期目標の評価をいかに促進するかを示す。
関連論文リスト
- Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Auction-Based Scheduling [2.3326951882644553]
オークションベースのスケジューリングは、多目的意思決定問題のためのモジュラーフレームワークである。
それぞれの目的は別々のポリシーを使用して達成され、ポリシーは独立して作成、変更、置換が可能である。
我々は,2つのポリシー,当初割り当てられた予算,入札戦略を合成する分散アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-18T08:38:42Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Tier Balancing: Towards Dynamic Fairness over Underlying Causal Factors [11.07759054787023]
長期的な公正性の追求には、意思決定と基礎となるデータ生成プロセスの相互作用が含まれる。
技術的には難しいが、達成すべき自然な概念であるティアバランシングを提案します。
特定力学の下では、一般に1段階の介入によってしか長期的な公正化の目標を達成できないことが証明される。
論文 参考訳(メタデータ) (2023-01-21T18:05:59Z) - Policy Optimization with Advantage Regularization for Long-Term Fairness
in Decision Systems [14.095401339355677]
長期的な公正性は,学習に基づく意思決定システムの設計と展開において重要な要素である。
近年の研究では,マルコフ決定プロセス(MDP)を用いて意思決定を長期的公正性要件で定式化する手法が提案されている。
深層強化学習による政策最適化手法は、より厳密な意思決定ポリシーを見つけるのに有効であることを示す。
論文 参考訳(メタデータ) (2022-10-22T20:41:36Z) - Achievement and Fragility of Long-term Equitability [3.04585143845864]
公平性の概念を最大化するために,地域交流コミュニティに限られた資源を割り当てる方法について検討する。
データ駆動型フィードバックのオンライン最適化に起因した最近の数学的ツールを用いている。
我々は,長期的均衡性を最大化するアロケーションに収束する動的ポリシーを設計する。
論文 参考訳(メタデータ) (2022-06-24T15:04:49Z) - Towards Return Parity in Markov Decision Processes [36.96748490812215]
マルコフ決定過程(MDP)における公平性問題について検討する。
我々は、異なる人口集団のMDPが同じ報酬を達成するために必要となるフェアネスの概念であるリターンパリティを提案する。
解析定理により、状態訪問分布アライメントを伴う共有グループポリシーを学習することにより、戻り値の不一致を軽減するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-19T23:25:38Z) - On the Sample Complexity and Metastability of Heavy-tailed Policy Search
in Continuous Control [47.71156648737803]
強化学習(Reinforcement learning)は、システムダイナミクスモデルなしで、時間をかけてインセンティブを順次明らかにする、インタラクティブな意思決定のためのフレームワークである。
定義された連鎖を特徴付け、テールインデックスのレヴィプロセスに関連するポリシーがより広いピークに収まることを識別する。
論文 参考訳(メタデータ) (2021-06-15T20:12:44Z) - Offline Policy Selection under Uncertainty [113.57441913299868]
我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。
政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。
BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
論文 参考訳(メタデータ) (2020-12-12T23:09:21Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。