論文の概要: Towards Return Parity in Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2111.10476v1
- Date: Fri, 19 Nov 2021 23:25:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 13:28:02.909606
- Title: Towards Return Parity in Markov Decision Processes
- Title(参考訳): マルコフ決定過程の帰納的パリティに向けて
- Authors: Jianfeng Chi, Jian Shen, Xinyi Dai, Weinan Zhang, Yuan Tian, Han Zhao
- Abstract要約: マルコフ決定過程(MDP)における公平性問題について検討する。
我々は、異なる人口集団のMDPが同じ報酬を達成するために必要となるフェアネスの概念であるリターンパリティを提案する。
解析定理により、状態訪問分布アライメントを伴う共有グループポリシーを学習することにより、戻り値の不一致を軽減するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 36.96748490812215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Algorithmic decisions made by machine learning models in high-stakes domains
may have lasting impacts over time. Unfortunately, naive applications of
standard fairness criterion in static settings over temporal domains may lead
to delayed and adverse effects. To understand the dynamics of performance
disparity, we study a fairness problem in Markov decision processes (MDPs).
Specifically, we propose return parity, a fairness notion that requires MDPs
from different demographic groups that share the same state and action spaces
to achieve approximately the same expected time-discounted rewards. We first
provide a decomposition theorem for return disparity, which decomposes the
return disparity of any two MDPs into the distance between group-wise reward
functions, the discrepancy of group policies, and the discrepancy between state
visitation distributions induced by the group policies. Motivated by our
decomposition theorem, we propose algorithms to mitigate return disparity via
learning a shared group policy with state visitation distributional alignment
using integral probability metrics. We conduct experiments to corroborate our
results, showing that the proposed algorithm can successfully close the
disparity gap while maintaining the performance of policies on two real-world
recommender system benchmark datasets.
- Abstract(参考訳): 高度な領域における機械学習モデルによるアルゴリズムによる決定は、時間とともに持続的な影響を与える可能性がある。
残念なことに、時間領域の静的設定における標準フェアネス基準のナイーブな応用は、遅延や悪影響をもたらす可能性がある。
性能格差のダイナミクスを理解するために,マルコフ決定過程(MDP)における公平性問題について検討する。
具体的には,同じ状態と行動空間を共有する異なる集団集団のmdpが,ほぼ同じ時間分布の報酬を得られるように要求するフェアネス概念であるreturn parityを提案する。
まず,2つのmdpの帰納格差をグループ毎の報酬関数間の距離,グループポリシーの不一致,およびグループポリシーによって引き起こされる状態訪問分布間の不一致に分解する帰納格差の分解定理を提案する。
本研究では, 積分確率メトリクスを用いた状態訪問分布アライメントを用いた共有群ポリシーを学習することにより, 回帰不均衡を緩和するアルゴリズムを提案する。
提案手法は,2つの実世界のレコメンダシステムベンチマークデータセットにおけるポリシのパフォーマンスを維持しつつ,不一致のギャップを解消することに成功した。
関連論文リスト
- Reconciling Heterogeneous Effects in Causal Inference [44.99833362998488]
本稿では、機械学習におけるモデル乗法にReconcileアルゴリズムを適用し、因果推論における異種効果を再現する。
本研究の結果は,医療,保険,住宅などの高額な事業において,公正な成果の確保に有意な意味を持っている。
論文 参考訳(メタデータ) (2024-06-05T18:43:46Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Repairing Regressors for Fair Binary Classification at Any Decision
Threshold [8.322348511450366]
同時にすべてのしきい値で公正なパフォーマンスを向上できることを示します。
本研究では,異なる保護群に対する分類の分布の類似度を捉える分布パリティの形式的尺度を導入する。
我々の主な成果は、最適輸送に基づく新しい後処理アルゴリズムを提案し、分散パリティを確実に最大化することである。
論文 参考訳(メタデータ) (2022-03-14T20:53:35Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z) - Risk-Sensitive Markov Decision Processes with Combined Metrics of Mean
and Variance [3.062772835338966]
本稿では,長期平均値を持つ無限段階離散時間マルコフ決定過程(MDP)の最適化問題について検討する。
性能差式が導出され、任意の2つの異なるポリシーの下で、MPPの平均分散結合メトリクスの差を定量化することができる。
最適政策の必要条件と決定論的政策の最適性が導出される。
論文 参考訳(メタデータ) (2020-08-09T10:35:35Z) - Learning Overlapping Representations for the Estimation of
Individualized Treatment Effects [97.42686600929211]
観測データから代替案の可能性を推定することは難しい問題である。
入力のドメイン不変表現を学習するアルゴリズムは、しばしば不適切であることを示す。
我々は,様々なベンチマークデータセットの最先端性を大幅に向上させる,ディープカーネル回帰アルゴリズムと後続正規化フレームワークを開発した。
論文 参考訳(メタデータ) (2020-01-14T12:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。