論文の概要: Achieving Counterfactual Fairness for Causal Bandit
- arxiv url: http://arxiv.org/abs/2109.10458v1
- Date: Tue, 21 Sep 2021 23:44:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 22:45:28.459211
- Title: Achieving Counterfactual Fairness for Causal Bandit
- Title(参考訳): 因果バンドの対効果公正化
- Authors: Wen Huang, Lu Zhang, Xintao Wu
- Abstract要約: 期待される報酬を最大化するために、各ステップでアイテムを推薦する方法を研究します。
次に, 対実的個人的公正性を達成するためのフェア因果バンドイット(F-UCB)を提案する。
- 参考スコア(独自算出の注目度): 18.077963117600785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In online recommendation, customers arrive in a sequential and stochastic
manner from an underlying distribution and the online decision model recommends
a chosen item for each arriving individual based on some strategy. We study how
to recommend an item at each step to maximize the expected reward while
achieving user-side fairness for customers, i.e., customers who share similar
profiles will receive a similar reward regardless of their sensitive attributes
and items being recommended. By incorporating causal inference into bandits and
adopting soft intervention to model the arm selection strategy, we first
propose the d-separation based UCB algorithm (D-UCB) to explore the utilization
of the d-separation set in reducing the amount of exploration needed to achieve
low cumulative regret. Based on that, we then propose the fair causal bandit
(F-UCB) for achieving the counterfactual individual fairness. Both theoretical
analysis and empirical evaluation demonstrate effectiveness of our algorithms.
- Abstract(参考訳): オンラインレコメンデーションでは、顧客は基盤となるディストリビューションから逐次かつ確率的な方法で到着し、オンライン決定モデルは、いくつかの戦略に基づいて、到着する個人ごとに選択されたアイテムを推奨する。
本研究は,顧客に対して,ユーザ側の公正性を達成しつつ,期待される報酬を最大化するために,各ステップで商品を推薦する方法について検討する。
そこで我々は,まず,包帯に因果推論を取り入れ,腕選択戦略をモデル化するためのソフト介入を適用して,d-セパレーションに基づくCBアルゴリズム(D-UCB)を提案し,低累積後悔を実現するために必要な探索量を削減するために,d-セパレーションセットの利用について検討する。
そこで我々は, 対実的個人的公正性を達成するためのフェア因果バンドイット (F-UCB) を提案する。
理論的解析と経験的評価の両方がアルゴリズムの有効性を示している。
関連論文リスト
- Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
言語モデル (LM) は、好みのアノテーションから派生した報酬関数を最大化する。
DPOは、報酬モデルや強化学習を適用することなく、優先データに直接ポリシーを訓練する一般的なオフラインアライメント手法である。
この現象を解析し, 生成対よりも真の嗜好分布のより良いプロキシを得るため, 蒸留を提案する。
論文 参考訳(メタデータ) (2024-05-29T17:39:48Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Aligning Large Language Models by On-Policy Self-Judgment [49.31895979525054]
大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。
本稿では,オンライン学習を行う新たなアライメントフレームワークSELF-JUDGEを提案する。
また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
論文 参考訳(メタデータ) (2024-02-17T11:25:26Z) - Fairness via Adversarial Attribute Neighbourhood Robust Learning [49.93775302674591]
本稿では,分類ヘッドを損なうために,UnderlineRobust underlineAdversarial underlineAttribute underlineNeighbourhood (RAAN)損失を原則として提案する。
論文 参考訳(メタデータ) (2022-10-12T23:39:28Z) - Recommendation Systems with Distribution-Free Reliability Guarantees [83.80644194980042]
我々は、主に良いアイテムを含むことを厳格に保証されたアイテムのセットを返す方法を示す。
本手法は, 擬似発見率の厳密な有限サンプル制御によるランキングモデルを提供する。
我々はYahoo!のランキングとMSMarcoデータセットの学習方法を評価する。
論文 参考訳(メタデータ) (2022-07-04T17:49:25Z) - The Unfairness of Active Users and Popularity Bias in Point-of-Interest
Recommendation [4.578469978594752]
本稿では, (i) アクティブユーザの不公平さ, (ii) 人気項目の不公平さ, (iii) 調査三角形の3つの角度として推薦の精度について検討する。
アイテムフェアネスでは、アイテムをショートヘッド、ミッドテール、ロングテールグループに分割し、これらのアイテムグループの露出をユーザのトップkレコメンデーションリストにまとめる。
本研究は, 消費者と生産者の公正性を両立させることができず, 自然バイアスが原因と考えられる変数間のトレードオフが示唆されている。
論文 参考訳(メタデータ) (2022-02-27T08:02:19Z) - Understanding the Effects of Adversarial Personalized Ranking
Optimization Method on Recommendation Quality [6.197934754799158]
ベイズパーソナライズランキング(BPR)とAPR最適化フレームワークの学習特性をモデル化する。
APRがBPRよりも人気バイアスを増大させるのは、ショートヘッドアイテムからの肯定的な更新が不均衡に多いためである。
論文 参考訳(メタデータ) (2021-07-29T10:22:20Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - Continuous Mean-Covariance Bandits [39.820490484375156]
本稿では,選択肢相関を考慮した連続平均共分散帯域モデルを提案する。
CMCBでは、与えられた選択肢の重みベクトルを逐次選択し、決定に従ってランダムなフィードバックを観察する学習者がいる。
最適な後悔(対数的因子を含む)を伴う新しいアルゴリズムを提案し、それらの最適性を検証するために一致した下界を提供する。
論文 参考訳(メタデータ) (2021-02-24T06:37:05Z) - Causality-Aware Neighborhood Methods for Recommender Systems [3.0919302844782717]
販売の増加などのリコメンデーターのビジネス目的は、レコメンデーションの因果効果と一致している。
以前の推奨者は因果推論において逆確率スコアリング(IPS)を採用している。
推薦の因果効果に対するロバストなランキング手法を開発した。
論文 参考訳(メタデータ) (2020-12-17T08:23:17Z) - Achieving User-Side Fairness in Contextual Bandits [17.947543703195738]
パーソナライズされたレコメンデーションにおけるユーザ側の公平性を実現する方法について検討する。
我々は、適切なパーソナライズされたレコメンデーションを、修正された文脈的盗賊として定式化する。
本研究では,従来のLinUCBアルゴリズムを改良したFair-LinUCBを提案する。
論文 参考訳(メタデータ) (2020-10-22T22:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。