論文の概要: Counterfactually Fair Reinforcement Learning via Sequential Data Preprocessing
- arxiv url: http://arxiv.org/abs/2501.06366v1
- Date: Fri, 10 Jan 2025 22:27:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:29:59.807070
- Title: Counterfactually Fair Reinforcement Learning via Sequential Data Preprocessing
- Title(参考訳): 逐次データ前処理による対向的公正強化学習
- Authors: Jitao Wang, Chengchun Shi, John D. Piette, Joshua R. Loftus, Donglin Zeng, Zhenke Wu,
- Abstract要約: 対実公正(CF)は、因果推論に基づく有望な統計ツールであり、公正を定式化し研究する。
我々は,最適なCFポリシーを理論的に特徴づけ,その定常性を証明し,最適なCFポリシーの探索を大幅に単純化する。
我々は、不公平を防ぎ、シミュレーションを通じて最適な価値を得るための政策学習アプローチを証明し、検証する。
- 参考スコア(独自算出の注目度): 13.34215548232296
- License:
- Abstract: When applied in healthcare, reinforcement learning (RL) seeks to dynamically match the right interventions to subjects to maximize population benefit. However, the learned policy may disproportionately allocate efficacious actions to one subpopulation, creating or exacerbating disparities in other socioeconomically-disadvantaged subgroups. These biases tend to occur in multi-stage decision making and can be self-perpetuating, which if unaccounted for could cause serious unintended consequences that limit access to care or treatment benefit. Counterfactual fairness (CF) offers a promising statistical tool grounded in causal inference to formulate and study fairness. In this paper, we propose a general framework for fair sequential decision making. We theoretically characterize the optimal CF policy and prove its stationarity, which greatly simplifies the search for optimal CF policies by leveraging existing RL algorithms. The theory also motivates a sequential data preprocessing algorithm to achieve CF decision making under an additive noise assumption. We prove and then validate our policy learning approach in controlling unfairness and attaining optimal value through simulations. Analysis of a digital health dataset designed to reduce opioid misuse shows that our proposal greatly enhances fair access to counseling.
- Abstract(参考訳): 医療に応用される場合、強化学習(RL)は、人口の利益を最大化するために、被験者に対する適切な介入を動的に一致させようとする。
しかし、学習された政策は、他の社会経済的に不都合なサブグループにおける格差を生んだり、悪化させたりして、あるサブ集団に効果的に作用を割り当てる可能性がある。
これらのバイアスは多段階の意思決定で発生し、不適格である場合、ケアや治療の利益へのアクセスを制限する重大な意図しない結果を引き起こす可能性がある。
対実公正(CF)は、因果推論に基づく有望な統計ツールであり、公正を定式化し研究する。
本稿では,公平な意思決定のための一般的な枠組みを提案する。
理論的には最適なCFポリシーを特徴づけ、その定常性を証明し、既存のRLアルゴリズムを利用して最適なCFポリシーの探索を大幅に単純化する。
この理論はまた、付加的な雑音仮定の下でCF決定を達成するためのシーケンシャルなデータ前処理アルゴリズムを動機付けている。
我々は、不公平を防ぎ、シミュレーションを通じて最適な価値を得るための政策学習アプローチを証明し、検証する。
オピオイド誤用を減らすために設計されたデジタル健康データセットの解析により、提案手法はカウンセリングへの公正アクセスを大幅に向上させることが示された。
関連論文リスト
- Counterfactual Fairness by Combining Factual and Counterfactual Predictions [18.950415688199993]
医療や雇用といった高度な分野において、意思決定における機械学習(ML)の役割は、かなりの公平さの懸念を提起する。
この研究は、あらゆる個人に対するMLモデルの結果が、異なる人口集団に属していた場合、変化しないべきであると仮定する対実公正(CF)に焦点を当てている。
本稿では,CFと予測性能のトレードオフをモデルに依存しない形で理論的に検討する。
論文 参考訳(メタデータ) (2024-09-03T15:21:10Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Policy Learning with Distributional Welfare [1.0742675209112622]
治療選択に関する文献の多くは、条件平均治療効果(ATE)に基づく実用的福祉を考慮したものである。
本稿では,個別処理効果(QoTE)の条件量子化に基づく処理を最適に割り当てる政策を提案する。
論文 参考訳(メタデータ) (2023-11-27T14:51:30Z) - Optimal and Fair Encouragement Policy Evaluation and Learning [11.712023983596914]
本研究は, 陽性の潜在的な違反を含む最適治療規則の因果同定とロバストな評価について検討した。
一般制約下でのパラメタライズされたポリシークラスを解くための2段階のアルゴリズムを開発し、分散感応的後悔境界を求める。
本研究は, SNAP給付のリマインダーデータ, 保険申請の無作為化促進, および電子監視による事前管理リリースに基づく3つのケーススタディである。
論文 参考訳(メタデータ) (2023-09-12T20:45:30Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Reinforcement Learning with Stepwise Fairness Constraints [50.538878453547966]
本稿では,段階的公正性制約を伴う強化学習について紹介する。
我々は、ポリシーの最適性と公正性違反に関して、強力な理論的保証を持つ学習アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-11-08T04:06:23Z) - Federated Offline Reinforcement Learning [55.326673977320574]
マルチサイトマルコフ決定プロセスモデルを提案する。
我々は,オフラインRLを対象とした最初のフェデレーション最適化アルゴリズムを設計する。
提案アルゴリズムでは,学習ポリシーの準最適性は,データが分散していないような速度に匹敵する,理論的保証を与える。
論文 参考訳(メタデータ) (2022-06-11T18:03:26Z) - Enforcing Group Fairness in Algorithmic Decision Making: Utility
Maximization Under Sufficiency [0.0]
本稿では,PPVパリティ,偽脱落率(FOR)パリティ(False Omission rate)パリティ(FOR)パリティ(False Omission rate)パリティ(FOR)パリティ(False Omission rate)パリティ(FOR)パリティ(FOR)パリティ(Sufficiency)について述べる。
グループ固有のしきい値規則はPPVパリティとForパリティに最適であることを示す。
また,フェアネス制約を満たす最適決定規則の解も提供する。
論文 参考訳(メタデータ) (2022-06-05T18:47:34Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Inherent Trade-offs in the Fair Allocation of Treatments [2.6143568807090696]
明示的で暗黙的な偏見は人間の判断を曇らせ、少数民族の差別的扱いに繋がる。
フェアネス制約を考慮したデータから最適な介入ポリシーを学習する因果的枠組みを提案する。
論文 参考訳(メタデータ) (2020-10-30T17:55:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。