論文の概要: Equal Long-term Benefit Rate: Adapting Static Fairness Notions to
Sequential Decision Making
- arxiv url: http://arxiv.org/abs/2309.03426v1
- Date: Thu, 7 Sep 2023 01:10:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 14:38:22.757500
- Title: Equal Long-term Benefit Rate: Adapting Static Fairness Notions to
Sequential Decision Making
- Title(参考訳): 同等の長期利益率:静的公正通知を逐次決定に適応させる
- Authors: Yuancheng Xu, Chenghao Deng, Yanchao Sun, Ruijie Zheng, Xiyao Wang,
Jieyu Zhao, Furong Huang
- Abstract要約: ELBERT(Equal Long-term Benefit Rate)と呼ばれる長期公正性の概念を導入する。
長期利益率の政策勾配は分析的に標準政策勾配に還元できることを示す。
3つの逐次意思決定環境の実験により,ELBERT-POはバイアスを著しく低減し,高い有効性を維持することが示された。
- 参考スコア(独自算出の注目度): 43.59869705928267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decisions made by machine learning models may have lasting impacts over time,
making long-term fairness a crucial consideration. It has been shown that when
ignoring the long-term effect, naively imposing fairness criterion in static
settings can actually exacerbate bias over time. To explicitly address biases
in sequential decision-making, recent works formulate long-term fairness
notions in Markov Decision Process (MDP) framework. They define the long-term
bias to be the sum of static bias over each time step. However, we demonstrate
that naively summing up the step-wise bias can cause a false sense of fairness
since it fails to consider the importance difference of different time steps
during transition. In this work, we introduce a long-term fairness notion
called Equal Long-term Benefit Rate (ELBERT), which explicitly considers
varying temporal importance and adapts static fairness principles to the
sequential setting. Moreover, we show that the policy gradient of Long-term
Benefit Rate can be analytically reduced to standard policy gradient. This
makes standard policy optimization methods applicable for reducing the bias,
leading to our proposed bias mitigation method ELBERT-PO. Experiments on three
sequential decision making environments show that ELBERT-PO significantly
reduces bias and maintains high utility. Code is available at
https://github.com/Yuancheng-Xu/ELBERT.
- Abstract(参考訳): 機械学習モデルによる決定は、時間とともに持続的な影響をもたらす可能性がある。
長期的な効果を無視すると、静的な設定で公平性基準を無効に課すことは、時間とともにバイアスを悪化させる可能性があることが示されている。
逐次意思決定におけるバイアスに明示的に対処するため、最近の研究はマルコフ決定プロセス(MDP)フレームワークにおける長期的な公平性の概念を定式化している。
彼らは、長期バイアスを各時間ステップにおける静的バイアスの合計と定義している。
しかし, ステップワイズバイアスをナイーブに要約すると, 移行過程における異なる時間ステップの重要度の違いを考慮できないため, 公平感を誤認する可能性があることを実証した。
本研究では,時間的重要性の変動を明示的に考慮し,静的公平性原理を逐次設定に適応する「平等長期利益率」(elbert)という長期的公平性概念を導入する。
さらに、長期利益率の政策勾配を分析的に標準政策勾配に還元できることを示す。
これにより, 標準方針最適化手法をバイアス低減に適用し, 提案手法であるELBERT-POを導出する。
3つの逐次意思決定環境の実験により,ELBERT-POはバイアスを著しく低減し,高い有効性を維持することが示された。
コードはhttps://github.com/Yuancheng-Xu/ELBERT.comで入手できる。
関連論文リスト
- Tier Balancing: Towards Dynamic Fairness over Underlying Causal Factors [11.07759054787023]
長期的な公正性の追求には、意思決定と基礎となるデータ生成プロセスの相互作用が含まれる。
技術的には難しいが、達成すべき自然な概念であるティアバランシングを提案します。
特定力学の下では、一般に1段階の介入によってしか長期的な公正化の目標を達成できないことが証明される。
論文 参考訳(メタデータ) (2023-01-21T18:05:59Z) - Revisiting Estimation Bias in Policy Gradients for Deep Reinforcement
Learning [0.0]
我々は、Deep Reinforcement Learningの観点から、割引されたエピソードマルコフ決定プロセス(MDP)の政策勾配の推定バイアスを再考する。
主要な政策バイアスの1つは、州の分散シフトである。
このような状態分布シフトにもかかわらず、政策勾配推定バイアスは以下の3つの方法で低減できることを示す。
論文 参考訳(メタデータ) (2023-01-20T06:46:43Z) - ADEPT: A DEbiasing PrompT Framework [49.582497203415855]
ファインタニングは文脈化された単語の埋め込みを曖昧にするための応用手法である。
意味的な意味を持つ個別のプロンプトは、タスクを乱すのに有効であることが示されている。
本稿では, PLM をデバイアス化する方法であるADEPT を提案し, バイアス除去と表現能力の確保の微妙なバランスを維持しながら, 即時チューニングによる PLM のデバイアス化手法を提案する。
論文 参考訳(メタデータ) (2022-11-10T08:41:40Z) - Enforcing Delayed-Impact Fairness Guarantees [21.368958668652652]
ELFは, 長期的, 遅延的, 影響の観点から, 信頼性の高い公正性を保証する最初の分類アルゴリズムである。
提案アルゴリズムは, 長期不公平を軽減できることを示す。
論文 参考訳(メタデータ) (2022-08-24T19:14:56Z) - Where is the Grass Greener? Revisiting Generalized Policy Iteration for
Offline Reinforcement Learning [81.15016852963676]
オフラインRL体制における最先端のベースラインを、公正で統一的で高分解能なフレームワークの下で再実装する。
与えられたベースラインが、スペクトルの一方の端で競合する相手よりも優れている場合、他方の端では決してしないことを示す。
論文 参考訳(メタデータ) (2021-07-03T11:00:56Z) - Efficient PAC Reinforcement Learning in Regular Decision Processes [99.02383154255833]
定期的な意思決定プロセスで強化学習を研究します。
我々の主な貢献は、最適に近いポリシーをパラメータのセットで時間内にPACを学習できることである。
論文 参考訳(メタデータ) (2021-05-14T12:08:46Z) - State-Visitation Fairness in Average-Reward MDPs [5.190207094732672]
我々は,時間的拡大した意思決定,特にマルコフ決定プロセス(mdps)を定式化した意思決定場面における公平性について検討する。
提案する公平性の概念は,各州の長期訪問頻度が指定された割合以上であることを保証する。
提案手法は,予測平均逆方向と長期状態視周波数の同時近似を保証する。
論文 参考訳(メタデータ) (2021-02-14T10:20:53Z) - Algorithmic Decision Making with Conditional Fairness [48.76267073341723]
条件付きフェアネスを、条件付きフェアネス変数の条件付けにより、より健全なフェアネス計量として定義する。
本稿では,アルゴリズム決定の精度と公平性のトレードオフを追跡するために,導出条件公正規則化器(DCFR)を提案する。
論文 参考訳(メタデータ) (2020-06-18T12:56:28Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。