論文の概要: Policy Optimization with Advantage Regularization for Long-Term Fairness
in Decision Systems
- arxiv url: http://arxiv.org/abs/2210.12546v1
- Date: Sat, 22 Oct 2022 20:41:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 15:05:31.319706
- Title: Policy Optimization with Advantage Regularization for Long-Term Fairness
in Decision Systems
- Title(参考訳): 意思決定システムの長期公正性に対するアドバンテージ規則化による政策最適化
- Authors: Eric Yang Yu, Zhizhen Qin, Min Kyung Lee, Sicun Gao
- Abstract要約: 長期的な公正性は,学習に基づく意思決定システムの設計と展開において重要な要素である。
近年の研究では,マルコフ決定プロセス(MDP)を用いて意思決定を長期的公正性要件で定式化する手法が提案されている。
深層強化学習による政策最適化手法は、より厳密な意思決定ポリシーを見つけるのに有効であることを示す。
- 参考スコア(独自算出の注目度): 14.095401339355677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-term fairness is an important factor of consideration in designing and
deploying learning-based decision systems in high-stake decision-making
contexts. Recent work has proposed the use of Markov Decision Processes (MDPs)
to formulate decision-making with long-term fairness requirements in
dynamically changing environments, and demonstrated major challenges in
directly deploying heuristic and rule-based policies that worked well in static
environments. We show that policy optimization methods from deep reinforcement
learning can be used to find strictly better decision policies that can often
achieve both higher overall utility and less violation of the fairness
requirements, compared to previously-known strategies. In particular, we
propose new methods for imposing fairness requirements in policy optimization
by regularizing the advantage evaluation of different actions. Our proposed
methods make it easy to impose fairness constraints without reward engineering
or sacrificing training efficiency. We perform detailed analyses in three
established case studies, including attention allocation in incident
monitoring, bank loan approval, and vaccine distribution in population
networks.
- Abstract(参考訳): 長期的な公正性は,学習に基づく意思決定システムの設計と展開において重要な要素である。
最近の研究は、動的に変化する環境における長期的な公正性要件による意思決定を定式化するためのマルコフ決定プロセス(MDP)の使用を提案し、静的環境でうまく機能するヒューリスティックおよびルールベースのポリシーを直接展開する上で大きな課題を示した。
深層強化学習による政策最適化手法は, 従来知られている戦略と比較して, 汎用性の向上と公平性要件の違反の軽減をしばしば達成可能な, 厳密な意思決定方針を見出すために有効である。
特に,異なる行動の利点評価を定式化することにより,政策最適化において公平性要件を課す新しい手法を提案する。
提案手法は,報奨工学やトレーニング効率を犠牲にすることなく,公平性制約を課すことが容易である。
本研究では,インシデント監視における注意配分,銀行融資承認,人口ネットワークにおけるワクチン配布など,三つのケーススタディにおいて詳細な分析を行う。
関連論文リスト
- Logarithmic Smoothing for Pessimistic Off-Policy Evaluation, Selection and Learning [7.085987593010675]
本研究は,文脈的包帯問題のオフライン定式化について検討する。
目標は、行動ポリシーの下で収集された過去のインタラクションを活用して、新しい、より優れたパフォーマンスのポリシーを評価し、選択し、学習することである。
重要度重み付けリスク推定器の幅広いクラスに対して,新しい完全経験的濃度境界を導入する。
論文 参考訳(メタデータ) (2024-05-23T09:07:27Z) - Conditions on Preference Relations that Guarantee the Existence of Optimal Policies [38.17324903156351]
部分的に観測可能な非マルコフ環境におけるLfPF問題を解析するための新しいフレームワークを提案する。
報酬関数が学習目標を表現できない場合でも、意思決定問題は最適ポリシーを持つことができることを示す。
論文 参考訳(メタデータ) (2023-11-03T15:42:12Z) - Adapting Static Fairness to Sequential Decision-Making: Bias Mitigation Strategies towards Equal Long-term Benefit Rate [41.51680686036846]
逐次意思決定におけるバイアスに対処するため,Equal Long-term Benefit Rate (ELBERT) という長期公正性の概念を導入する。
ELBERTは、以前の長期公正の概念に見られる時間的差別問題に効果的に対処する。
ELBERT-POは高い有効性を維持しながらバイアスを著しく減少させることを示した。
論文 参考訳(メタデータ) (2023-09-07T01:10:01Z) - Reinforcement Learning with Stepwise Fairness Constraints [50.538878453547966]
本稿では,段階的公正性制約を伴う強化学習について紹介する。
我々は、ポリシーの最適性と公正性違反に関して、強力な理論的保証を持つ学習アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-11-08T04:06:23Z) - Safe Policy Learning through Extrapolation: Application to Pre-trial
Risk Assessment [0.0]
我々は,政策の期待された効用を部分的に識別する頑健な最適化手法を開発し,その上で最適な政策を見出す。
このアプローチを、アルゴリズムレコメンデーションの助けを借りて人間が決定する、一般的で重要な設定にまで拡張する。
我々は,既存のリスク評価機器の透明性と解釈可能性を維持する新たな分類・勧告ルールを導出する。
論文 参考訳(メタデータ) (2021-09-22T00:52:03Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Universal Trading for Order Execution with Oracle Policy Distillation [99.57416828489568]
本稿では,不完全な市場状態と注文実行のための最適な行動シーケンスとのギャップを埋める,新たなユニバーサル取引ポリシー最適化フレームワークを提案する。
本研究の枠組みは,完全情報を持つ託宣教師による実践的最適実行に向けて,共通政策の学習を指導する上で有効であることを示す。
論文 参考訳(メタデータ) (2021-01-28T05:52:18Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - SOAC: The Soft Option Actor-Critic Architecture [25.198302636265286]
低レベルのオプション内ポリシーと高レベルのオプション選択ポリシーを同時に学習する手法が提案されている。
既存の手法は通常、非効率な探索と不安定な更新という2つの大きな課題に悩まされる。
これらの課題に対処するために、最大エントロピーモデルに基づく、新しく安定した非政治的アプローチを提案する。
論文 参考訳(メタデータ) (2020-06-25T13:06:59Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。