論文の概要: Fair Set Selection: Meritocracy and Social Welfare
- arxiv url: http://arxiv.org/abs/2102.11932v1
- Date: Tue, 23 Feb 2021 20:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-25 13:33:19.741124
- Title: Fair Set Selection: Meritocracy and Social Welfare
- Title(参考訳): 公正な選抜:功労主義と社会福祉
- Authors: Thomas Kleine Buening and Meirav Segal and Debabrota Basu and Christos
Dimitrakakis
- Abstract要約: 候補集団から一組の個人を選定する問題を実用的最大化問題として定式化する。
意思決定者の視点からは、期待されるユーティリティを最大化する選択ポリシーを見つけることと等価である。
我々の枠組みは、選択政策に関して個人が期待する限界貢献(EMC)の概念を、長所主義からの逸脱の尺度として導く。
- 参考スコア(独自算出の注目度): 6.205308371824033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we formulate the problem of selecting a set of individuals
from a candidate population as a utility maximisation problem. From the
decision maker's perspective, it is equivalent to finding a selection policy
that maximises expected utility. Our framework leads to the notion of expected
marginal contribution (EMC) of an individual with respect to a selection policy
as a measure of deviation from meritocracy. In order to solve the maximisation
problem, we propose to use a policy gradient algorithm. For certain policy
structures, the policy gradients are proportional to EMCs of individuals.
Consequently, the policy gradient algorithm leads to a locally optimal solution
that has zero EMC, and satisfies meritocracy. For uniform policies, EMC reduces
to the Shapley value. EMC also generalises the fair selection properties of
Shapley value for general selection policies. We experimentally analyse the
effect of different policy structures in a simulated college admission setting
and compare with ranking and greedy algorithms. Our results verify that
separable linear policies achieve high utility while minimising EMCs. We also
show that we can design utility functions that successfully promote notions of
group fairness, such as diversity.
- Abstract(参考訳): 本論文では,実効性最大化問題として,候補集団から個人群を選択する問題を定式化する。
意思決定者の視点からは、期待されるユーティリティを最大化する選択ポリシーを見つけることと等価である。
我々の枠組みは、選択政策に関して個人が期待する限界貢献(EMC)の概念を、長所主義からの逸脱の尺度として導く。
最大化問題を解決するために,ポリシー勾配アルゴリズムを提案する。
特定の政策構造において、政策勾配は個人のemcに比例する。
したがって、ポリシー勾配アルゴリズムは、emcがゼロである局所最適解を導き、実効主義を満足する。
均一なポリシーでは、EMCはShapley値に減少します。
EMCはまた、一般選択ポリシーに対するシェープリー値の公正選択特性を一般化する。
大学進学シミュレーションにおける異なる政策構造の影響を実験的に分析し,ランキングアルゴリズムと欲望アルゴリズムとの比較を行った。
分離可能な線形政策がemcを最小化しつつ高い実用性を達成することを検証した。
また、多様性などのグループ公平性の概念を成功裏に推進するユーティリティ機能を設計できることも示します。
関連論文リスト
- Policy Aggregation [21.21314301021803]
我々は、マルコフ決定プロセスにおいて、異なる報酬関数と最適なポリシーを持つ複数の個人とAIバリューアライメントの課題を考察する。
我々は、この問題を政策集約の1つとして定式化し、そこでは、望ましい集団的政策を特定することを目的としている。
主要な洞察は、社会的選択法は、国家が占有するポリトープのサブセットのボリュームと順序的選好を識別することで再解釈できるということである。
論文 参考訳(メタデータ) (2024-11-06T04:19:50Z) - Personalized Reinforcement Learning with a Budget of Policies [9.846353643883443]
機械学習(ML)におけるパーソナライゼーションは、ユーザの個々の特性に対する決定をモデル化する。
本稿では,Markov Decision Processes (r-MDPs) に代表される新しいフレームワークを提案する。
r-MDPでは、少数の代表ポリシーとのインタラクションを通じて、それぞれ独自の嗜好を持つ多様なユーザ人口に対応する。
r-MDPを効率的に解くための2つの深層強化学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-01-12T11:27:55Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies [62.39667564455059]
最適政策の分布を考察し研究する。
実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ることを示した。
さらに,本論文では,異なるリスクプロファイルを示す異なるポリシーを,解釈可能性に関する興味深い実践的応用に対応して提示する。
論文 参考訳(メタデータ) (2022-05-19T09:48:56Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Safe Policy Learning through Extrapolation: Application to Pre-trial
Risk Assessment [0.0]
我々は,政策の期待された効用を部分的に識別する頑健な最適化手法を開発し,その上で最適な政策を見出す。
このアプローチを、アルゴリズムレコメンデーションの助けを借りて人間が決定する、一般的で重要な設定にまで拡張する。
我々は,既存のリスク評価機器の透明性と解釈可能性を維持する新たな分類・勧告ルールを導出する。
論文 参考訳(メタデータ) (2021-09-22T00:52:03Z) - Offline Policy Selection under Uncertainty [113.57441913299868]
我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。
政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。
BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
論文 参考訳(メタデータ) (2020-12-12T23:09:21Z) - Robust Batch Policy Learning in Markov Decision Processes [0.0]
マルコフ決定プロセス(MDP)の枠組みにおけるオフラインデータ駆動シーケンシャル意思決定問題について検討する。
本稿では,政策誘導定常分布を中心とした分布について,平均報酬のセットを用いて各政策を評価することを提案する。
論文 参考訳(メタデータ) (2020-11-09T04:41:21Z) - Optimal Policies for the Homogeneous Selective Labels Problem [19.54948759840131]
本稿では,選択ラベルに直面する意思決定方針の学習について述べる。
割引総報酬を最大化するためには、最適政策がしきい値ポリシーであることが示される。
数え切れない無限水平平均報酬に対して、最適政策は全ての状態において肯定的な受容確率を持つ。
論文 参考訳(メタデータ) (2020-11-02T23:32:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。