論文の概要: Fairness of Exposure in Stochastic Bandits
- arxiv url: http://arxiv.org/abs/2103.02735v1
- Date: Wed, 3 Mar 2021 22:50:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-05 14:47:11.045734
- Title: Fairness of Exposure in Stochastic Bandits
- Title(参考訳): 確率帯域における露光の公正性
- Authors: Lequn Wang, Yiwei Bai, Wen Sun, Thorsten Joachims
- Abstract要約: 我々は、従来のバンディットの定式化は望ましくない不公平な勝者獲得につながると論じている。
ユーザに有用性を最適化しながら、アイテムへの露出のメリットに基づいた公平性を保証する新しいバンディット目標を提案します。
- 参考スコア(独自算出の注目度): 27.725232417003994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual bandit algorithms have become widely used for recommendation in
online systems (e.g. marketplaces, music streaming, news), where they now wield
substantial influence on which items get exposed to the users. This raises
questions of fairness to the items -- and to the sellers, artists, and writers
that benefit from this exposure. We argue that the conventional bandit
formulation can lead to an undesirable and unfair winner-takes-all allocation
of exposure. To remedy this problem, we propose a new bandit objective that
guarantees merit-based fairness of exposure to the items while optimizing
utility to the users. We formulate fairness regret and reward regret in this
setting, and present algorithms for both stochastic multi-armed bandits and
stochastic linear bandits. We prove that the algorithms achieve sub-linear
fairness regret and reward regret. Beyond the theoretical analysis, we also
provide empirical evidence that these algorithms can fairly allocate exposure
to different arms effectively.
- Abstract(参考訳): コンテキスト的バンディットアルゴリズムは、オンラインシステム(例えば)における推奨に広く使われている。
マーケットプレース、音楽ストリーミング、ニュース)では、どのアイテムがユーザーに露出するかに大きな影響を与えている。
これにより、アイテムと、この露出の恩恵を受ける売り手、アーティスト、作家に公平性に関する質問が提起されます。
我々は、従来のバンディットの定式化は望ましくない不公平な勝者獲得につながると論じている。
そこで本研究では,ユーザに対して有用性を最適化しながら,アイテムへの露出の公平性を保証する新たなバンディット目標を提案する。
我々は, 公平な後悔と後悔の報いを定式化し, 確率的多腕バンディットと確率的線形バンディットの両方に対してアルゴリズムを提案する。
このアルゴリズムは, 線形不公平を後悔し, 後悔を報いることを証明した。
理論解析以外にも、これらのアルゴリズムが異なる腕への露出を効果的にアロケートできるという実証的な証拠も提供する。
関連論文リスト
- Mitigating Exposure Bias in Online Learning to Rank Recommendation: A Novel Reward Model for Cascading Bandits [23.15042648884445]
我々は,Linear Cascading Banditsとして知られる,よく知られた文脈的帯域幅アルゴリズムのクラスにおける露出バイアスについて検討した。
本研究では,1)暗黙的なユーザフィードバック,2)レコメンデーションリストにおける項目の位置という2つの要因に基づいて,モデルパラメータを更新する Exposure-Aware reward モデルを提案する。
論文 参考訳(メタデータ) (2024-08-08T09:35:01Z) - Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - $\alpha$-Fair Contextual Bandits [10.74025233418392]
コンテキストバンディットアルゴリズムは、レコメンデータシステム、臨床試験、最適なポートフォリオ選択など、多くのアプリケーションの中核にある。
文脈的バンディット文学で研究される最も一般的な問題の1つは、各ラウンドにおける報酬の合計を最大化することである。
本稿では,大域的な$alpha$-fairtextual Con Bandits問題を考える。
論文 参考訳(メタデータ) (2023-10-22T03:42:59Z) - Contextual bandits with concave rewards, and an application to fair
ranking [108.48223948875685]
CBCR (Contextual Bandits with Concave Rewards) に対する反省点のある最初のアルゴリズムを提案する。
我々は,スカラー・リワード問題に対するCBCRの後悔から,新たな縮小を導出した。
推薦の公正さによって動機づけられたCBCRの特別事例として,ランク付けと公正を意識した目的について述べる。
論文 参考訳(メタデータ) (2022-10-18T16:11:55Z) - Confidence-Budget Matching for Sequential Budgeted Learning [69.77435313099366]
問合せ予算で意思決定問題を定式化する。
我々は,多腕バンディット,線形バンディット,強化学習問題を考察する。
我々は,CBMに基づくアルゴリズムが逆性の存在下で良好に動作することを示す。
論文 参考訳(メタデータ) (2021-02-05T19:56:31Z) - A Regret bound for Non-stationary Multi-Armed Bandits with Fairness
Constraints [7.716156977428555]
我々は,緩やかに変化する$k$-armed bandit問題を解くために,fair upper confidenceと呼ばれる新しいアルゴリズムとexploring fair-ucbeを提案する。
非定常ケースにおけるアルゴリズムの性能は,その定常ケースに近づくとゼロになりがちであることを示す。
論文 参考訳(メタデータ) (2020-12-24T18:12:01Z) - Achieving User-Side Fairness in Contextual Bandits [17.947543703195738]
パーソナライズされたレコメンデーションにおけるユーザ側の公平性を実現する方法について検討する。
我々は、適切なパーソナライズされたレコメンデーションを、修正された文脈的盗賊として定式化する。
本研究では,従来のLinUCBアルゴリズムを改良したFair-LinUCBを提案する。
論文 参考訳(メタデータ) (2020-10-22T22:58:25Z) - Fairness-Aware Explainable Recommendation over Knowledge Graphs [73.81994676695346]
ユーザのアクティビティのレベルに応じて異なるグループのユーザを分析し、異なるグループ間での推奨パフォーマンスにバイアスが存在することを確認する。
不活性なユーザは、不活性なユーザのためのトレーニングデータが不十分なため、不満足なレコメンデーションを受けやすい可能性がある。
本稿では、知識グラフに対する説明可能な推奨という文脈で、この問題を緩和するために再ランク付けすることで、公平性に制約されたアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-03T05:04:38Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z) - Adversarial Attacks on Linear Contextual Bandits [87.08004581867537]
悪意のあるエージェントは、望ましい行動を実行するためにバンディットアルゴリズムを攻撃するインセンティブを持つ可能性がある。
悪意のあるエージェントは、線形コンテキストのバンドイットアルゴリズムに任意のアーム$T - o(T)$倍を$T$ステップで引き出すように強制することができる。
また,悪意のあるエージェントが単一コンテキストにおける帯域幅アルゴリズムの動作に影響を与えることに関心がある場合についても検討する。
論文 参考訳(メタデータ) (2020-02-10T15:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。