Fugu-MT 論文翻訳(概要): Achieving Counterfactual Fairness for Causal Bandit

論文の概要: Achieving Counterfactual Fairness for Causal Bandit

arxiv url: http://arxiv.org/abs/2109.10458v1
Date: Tue, 21 Sep 2021 23:44:48 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-23 22:45:28.459211
Title: Achieving Counterfactual Fairness for Causal Bandit
Title（参考訳）: 因果バンドの対効果公正化
Authors: Wen Huang, Lu Zhang, Xintao Wu
Abstract要約: 期待される報酬を最大化するために、各ステップでアイテムを推薦する方法を研究します。次に, 対実的個人的公正性を達成するためのフェア因果バンドイット(F-UCB)を提案する。
参考スコア（独自算出の注目度）: 18.077963117600785
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In online recommendation, customers arrive in a sequential and stochastic manner from an underlying distribution and the online decision model recommends a chosen item for each arriving individual based on some strategy. We study how to recommend an item at each step to maximize the expected reward while achieving user-side fairness for customers, i.e., customers who share similar profiles will receive a similar reward regardless of their sensitive attributes and items being recommended. By incorporating causal inference into bandits and adopting soft intervention to model the arm selection strategy, we first propose the d-separation based UCB algorithm (D-UCB) to explore the utilization of the d-separation set in reducing the amount of exploration needed to achieve low cumulative regret. Based on that, we then propose the fair causal bandit (F-UCB) for achieving the counterfactual individual fairness. Both theoretical analysis and empirical evaluation demonstrate effectiveness of our algorithms.
Abstract（参考訳）: オンラインレコメンデーションでは、顧客は基盤となるディストリビューションから逐次かつ確率的な方法で到着し、オンライン決定モデルは、いくつかの戦略に基づいて、到着する個人ごとに選択されたアイテムを推奨する。本研究は,顧客に対して,ユーザ側の公正性を達成しつつ,期待される報酬を最大化するために,各ステップで商品を推薦する方法について検討する。そこで我々は,まず,包帯に因果推論を取り入れ,腕選択戦略をモデル化するためのソフト介入を適用して,d-セパレーションに基づくCBアルゴリズム(D-UCB)を提案し,低累積後悔を実現するために必要な探索量を削減するために,d-セパレーションセットの利用について検討する。そこで我々は, 対実的個人的公正性を達成するためのフェア因果バンドイット (F-UCB) を提案する。理論的解析と経験的評価の両方がアルゴリズムの有効性を示している。

関連論文リスト

Fair Algorithms with Probing for Multi-Agent Multi-Armed Bandits [15.700062892888084]
我々は、割り当て前に選択した武器に関する情報を戦略的に収集する新しい探索フレームワークを導入する。報奨分布が知られているオフライン環境では、準モジュラ特性を利用して、証明可能な性能境界を持つ欲求探索アルゴリズムを設計する。より複雑なオンライン設定では、公平性を維持しながらサブ線形後悔を実現するアルゴリズムを開発する。
論文参考訳（メタデータ） (2025-06-17T21:43:21Z)
Learning Fair And Effective Points-Based Rewards Programs [4.465134753953128]
ポイントベースの報酬プログラムは、その実施における不公平な慣行の告発により精査されている。ポイントベースの報酬プログラムを公平に設計する問題について検討し、その効果と公正性に反する2つの障害に着目した。我々は、すべての顧客に対して同じ償還基準を使用する個人的公正報酬プログラムが、少なくとも1+ln 2$の損失を被っていることを示す。本稿では,実験による点評価のリスクを制限する学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-04T13:05:16Z)
Unbiased Collaborative Filtering with Fair Sampling [31.8123420283795]
評価バイアスは,トレーニング中の確率要因の影響から生じる。本稿では,各ユーザと各アイテムが正と負の両方のインスタンスとして選択される確率が等しいことを保証したフェアサンプリング(FS)手法を提案する。
論文参考訳（メタデータ） (2025-02-19T15:59:49Z)
Learning Recommender Systems with Soft Target: A Decoupled Perspective [49.83787742587449]
そこで本研究では,ソフトラベルを活用することで,目的を2つの側面として捉えるために,分離されたソフトラベル最適化フレームワークを提案する。本稿では,ラベル伝搬アルゴリズムをモデル化したソフトラベル生成アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-09T04:20:15Z)
Meta Clustering of Neural Bandits [45.77505279698894]
ニューラルバンドのクラスタリング(Clustering of Neural Bandits)という新しい問題を,任意の報酬関数に拡張することで研究する。本稿では,メタラーナーを用いて動的クラスタを高速に表現・適応する,M-CNBという新しいアルゴリズムを提案する。 M-CNBはレコメンデーションとオンラインの分類シナリオの両方で広範な実験を行い、SOTAベースラインを上回ります。
論文参考訳（メタデータ） (2024-08-10T16:09:51Z)
Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
言語モデル (LM) は、好みのアノテーションから派生した報酬関数を最大化する。 DPOは、報酬モデルや強化学習を適用することなく、優先データに直接ポリシーを訓練する一般的なオフラインアライメント手法である。この現象を解析し, 生成対よりも真の嗜好分布のより良いプロキシを得るため, 蒸留を提案する。
論文参考訳（メタデータ） (2024-05-29T17:39:48Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
Aligning Large Language Models by On-Policy Self-Judgment [49.31895979525054]
大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。本稿では,オンライン学習を行う新たなアライメントフレームワークSELF-JUDGEを提案する。また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
論文参考訳（メタデータ） (2024-02-17T11:25:26Z)
Recommendation Systems with Distribution-Free Reliability Guarantees [83.80644194980042]
我々は、主に良いアイテムを含むことを厳格に保証されたアイテムのセットを返す方法を示す。本手法は, 擬似発見率の厳密な有限サンプル制御によるランキングモデルを提供する。我々はYahoo!のランキングとMSMarcoデータセットの学習方法を評価する。
論文参考訳（メタデータ） (2022-07-04T17:49:25Z)
The Unfairness of Active Users and Popularity Bias in Point-of-Interest Recommendation [4.578469978594752]
本稿では, (i) アクティブユーザの不公平さ, (ii) 人気項目の不公平さ, (iii) 調査三角形の3つの角度として推薦の精度について検討する。アイテムフェアネスでは、アイテムをショートヘッド、ミッドテール、ロングテールグループに分割し、これらのアイテムグループの露出をユーザのトップkレコメンデーションリストにまとめる。本研究は, 消費者と生産者の公正性を両立させることができず, 自然バイアスが原因と考えられる変数間のトレードオフが示唆されている。
論文参考訳（メタデータ） (2022-02-27T08:02:19Z)
Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文参考訳（メタデータ） (2021-05-25T10:08:41Z)
Continuous Mean-Covariance Bandits [39.820490484375156]
本稿では,選択肢相関を考慮した連続平均共分散帯域モデルを提案する。 CMCBでは、与えられた選択肢の重みベクトルを逐次選択し、決定に従ってランダムなフィードバックを観察する学習者がいる。最適な後悔(対数的因子を含む)を伴う新しいアルゴリズムを提案し、それらの最適性を検証するために一致した下界を提供する。
論文参考訳（メタデータ） (2021-02-24T06:37:05Z)
Causality-Aware Neighborhood Methods for Recommender Systems [3.0919302844782717]
販売の増加などのリコメンデーターのビジネス目的は、レコメンデーションの因果効果と一致している。以前の推奨者は因果推論において逆確率スコアリング(IPS)を採用している。推薦の因果効果に対するロバストなランキング手法を開発した。
論文参考訳（メタデータ） (2020-12-17T08:23:17Z)
Achieving User-Side Fairness in Contextual Bandits [17.947543703195738]
パーソナライズされたレコメンデーションにおけるユーザ側の公平性を実現する方法について検討する。我々は、適切なパーソナライズされたレコメンデーションを、修正された文脈的盗賊として定式化する。本研究では,従来のLinUCBアルゴリズムを改良したFair-LinUCBを提案する。
論文参考訳（メタデータ） (2020-10-22T22:58:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。