Fugu-MT 論文翻訳(概要): Group Meritocratic Fairness in Linear Contextual Bandits

論文の概要: Group Meritocratic Fairness in Linear Contextual Bandits

arxiv url: http://arxiv.org/abs/2206.03150v1
Date: Tue, 7 Jun 2022 09:54:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-08 13:45:19.420250
Title: Group Meritocratic Fairness in Linear Contextual Bandits
Title（参考訳）: 線形文脈帯域におけるグループメリトクラテスフェアネス
Authors: Riccardo Grazzi, Arya Akhavan, John Isak Texas Falk, Leonardo Cella, Massimiliano Pontil
Abstract要約: エージェントがプールから1つの候補を選択し、各候補がセンシティブなグループに属するという線形文脈帯域問題について検討する。エージェントのポリシーは、最も高い相対ランクの候補を選択する際に公平であることを示す公平性の概念を提案する。
参考スコア（独自算出の注目度）: 32.15680917495674
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study the linear contextual bandit problem where an agent has to select one candidate from a pool and each candidate belongs to a sensitive group. In this setting, candidates' rewards may not be directly comparable between groups, for example when the agent is an employer hiring candidates from different ethnic groups and some groups have a lower reward due to discriminatory bias and/or social injustice. We propose a notion of fairness that states that the agent's policy is fair when it selects a candidate with highest relative rank, which measures how good the reward is when compared to candidates from the same group. This is a very strong notion of fairness, since the relative rank is not directly observed by the agent and depends on the underlying reward model and on the distribution of rewards. Thus we study the problem of learning a policy which approximates a fair policy under the condition that the contexts are independent between groups and the distribution of rewards of each group is absolutely continuous. In particular, we design a greedy policy which at each round constructs a ridge regression estimator from the observed context-reward pairs, and then computes an estimate of the relative rank of each candidate using the empirical cumulative distribution function. We prove that the greedy policy achieves, after $T$ rounds, up to log factors and with high probability, a fair pseudo-regret of order $\sqrt{dT}$, where $d$ is the dimension of the context vectors. The policy also satisfies demographic parity at each round when averaged over all possible information available before the selection. We finally show with a proof of concept simulation that our policy achieves sub-linear fair pseudo-regret also in practice.
Abstract（参考訳）: エージェントがプールから1つの候補を選択し、各候補がセンシティブなグループに属するという線形文脈帯域問題について検討する。この設定では、候補者の報酬がグループ間で直接比較されない場合がある。例えば、エージェントが異なる民族集団の雇用者であり、差別的偏見や社会的不正による低い報酬を持つグループもある。本論では,同一集団の候補者と比較して報酬がどれだけ優れているかを測定するために,最上位の候補者を選択する際に,エージェントの方針が公平であることを示す公平性の概念を提案する。これはフェアネスの非常に強い概念であり、相対的なランクはエージェントによって直接観察されず、基礎となる報酬モデルと報酬の分配に依存する。そこで本稿では,各グループ間で文脈が独立であり,各グループの報酬分布が絶対連続であるという条件の下で,公正な政策を近似する政策を学習する問題を考察する。特に,各ラウンドにおいて観測されたコンテキスト・リワード対からリッジ回帰推定器を構築し,経験的累積分布関数を用いて各候補の相対ランクの推定値を計算するグリーディ・ポリシーを設計する。グリーディ・ポリシーが、t$ラウンドの後、ログ・ファクターまで、そして高い確率で、$d$がコンテキスト・ベクターの次元である場合、$\sqrt{dt}$という正準レグレットを達成することが証明される。このポリシーは、選択前に利用可能なすべての可能な情報を平均化するごとに、各ラウンドにおける人口比率を満たす。また,提案手法が準線形公正な擬似回帰を実現するという概念シミュレーションの実証を行った。

関連論文リスト

Distributionally Robust Policy Learning under Concept Drifts [33.44768994272614]
本稿では、より曖昧な問題、つまり、コンセプトドリフトの下でのロバストな政策学習について研究する。まず、与えられた政策の最悪の平均報酬を評価するための2倍のロバスト推定器を提供する。次に、所定のポリシークラス内で推定されたポリシー値を最大化するポリシーを出力する学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-18T19:53:56Z)
On the Hardness of Decentralized Multi-Agent Policy Evaluation under Byzantine Attacks [12.696705862929337]
完全分散型マルチエージェント政策評価問題について,最大$f$の障害エージェントの存在下で検討する。特に、モデル中毒設定を伴ういわゆるビザンツの欠陥モデルに焦点を当てる。
論文参考訳（メタデータ） (2024-09-19T16:27:08Z)
Information Capacity Regret Bounds for Bandits with Mediator Feedback [55.269551124587224]
我々は,政策セットの複雑さに対する情報理論尺度として,政策セットの容量を導入する。古典的なEXP4アルゴリズムを採用することで、ポリシーセットの容量に応じて、新たな後悔の限界を提供する。ポリシーセットファミリの選択については、キャパシティと同じようなスケールで、ほぼ整合性の低い境界を証明します。
論文参考訳（メタデータ） (2024-02-15T19:18:47Z)
Theoretical guarantees on the best-of-n alignment policy [110.21094183592358]
基本方針と最良$n$ポリシーのKL分散は、$log (n) - (n-1)/n.$と等しいことを示す。 KLの発散に対する新しい推定器を提案し、いくつかの例を通して厳密な近似を与えることを実証的に示す。
論文参考訳（メタデータ） (2024-01-03T18:39:13Z)
Thompson Exploration with Best Challenger Rule in Best Arm Identification [66.33448474838342]
本稿では,バンドイットフレームワークにおける固定信頼度最良腕識別問題について検討する。我々は、トンプソンサンプリングと、ベストチャレンジャールールとして知られる計算効率の良いアプローチを組み合わせた新しいポリシーを提案する。
論文参考訳（メタデータ） (2023-10-01T01:37:02Z)
Fair Group-Shared Representations with Normalizing Flows [68.29997072804537]
本研究では,異なるグループに属する個人を1つのグループにマッピングできる公正表現学習アルゴリズムを開発した。提案手法は,他の公正表現学習アルゴリズムと競合することを示す。
論文参考訳（メタデータ） (2022-01-17T10:49:49Z)
Linear Contextual Bandits with Adversarial Corruptions [91.38793800392108]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。逆汚染レベルに適応する分散認識アルゴリズムをC$で提案する。
論文参考訳（メタデータ） (2021-10-25T02:53:24Z)
Fairness in Ranking under Uncertainty [42.51950847766776]
不公平は、より有益なエージェントが、より有益なエージェントよりも悪い結果を得るときに起こる。私たちの中心的なポイントは、不公平の主な原因は不確実性であるということです。有効性と有効性とを最適にトレードオフするランキングを、プリンシパルにどのように計算するかを示す。
論文参考訳（メタデータ） (2021-07-14T14:10:16Z)
Fairness Preferences, Actual and Hypothetical: A Study of Crowdworker Incentives [1.854931308524932]
本稿では,これらの質問に対する研究プログラムと実験設計について概説する。投票は、グループの半分と残りの半分の実際の(実際の支払い結果と結びついていない)の仮定であり、グループの実際の好みと仮定された(統計的な)好みの関係を理解することができます。
論文参考訳（メタデータ） (2020-12-08T05:00:57Z)
On Fair Selection in the Presence of Implicit Variance [17.517529275692322]
我々は、暗黙のバイアスがなくても、異なるグループからの候補者の質の推定は、別の基本的な方法、すなわち、その分散によって異なるかもしれないと論じる。本稿では,グループ非依存正規分布から抽出される真の潜伏品質を有する簡易モデルを提案する。人口パーティメカニズムが常に選択ユーティリティを増大させる一方で、任意の$gamma$-ruleが弱くなることを示す。
論文参考訳（メタデータ） (2020-06-24T13:08:31Z)
Distributional Individual Fairness in Clustering [7.303841123034983]
本稿では,距離空間に埋め込まれた個人を,有界なクラスタ中心上の確率分布に割り当てる枠組みを提案する。 p$-norm目的のクラスタリングアルゴリズムと、証明可能な近似保証付き個別フェアネス制約を提案する。
論文参考訳（メタデータ） (2020-06-22T20:02:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。