論文の概要: Robustly Improving Bandit Algorithms with Confounded and Selection
Biased Offline Data: A Causal Approach
- arxiv url: http://arxiv.org/abs/2312.12731v1
- Date: Wed, 20 Dec 2023 03:03:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 17:04:00.649820
- Title: Robustly Improving Bandit Algorithms with Confounded and Selection
Biased Offline Data: A Causal Approach
- Title(参考訳): オフラインデータの構築と選択による帯域幅アルゴリズムのロバスト改善:因果的アプローチ
- Authors: Wen Huang and Xintao Wu
- Abstract要約: 本稿では,エージェントが各アームの報酬分布の推定を改善するために使用可能なオフラインデータにアクセス可能な帯域幅問題について検討する。
我々はバイアスを、それらが示唆する因果構造に基づいて、矛盾するバイアスと選択バイアスに分類する。
我々は、偏りのある観測データから、複合バイアスに対して頑健な各腕の因果関係を抽出する。
- 参考スコア(独自算出の注目度): 18.13887411913371
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies bandit problems where an agent has access to offline data
that might be utilized to potentially improve the estimation of each arm's
reward distribution. A major obstacle in this setting is the existence of
compound biases from the observational data. Ignoring these biases and blindly
fitting a model with the biased data could even negatively affect the online
learning phase. In this work, we formulate this problem from a causal
perspective. First, we categorize the biases into confounding bias and
selection bias based on the causal structure they imply. Next, we extract the
causal bound for each arm that is robust towards compound biases from biased
observational data. The derived bounds contain the ground truth mean reward and
can effectively guide the bandit agent to learn a nearly-optimal decision
policy. We also conduct regret analysis in both contextual and non-contextual
bandit settings and show that prior causal bounds could help consistently
reduce the asymptotic regret.
- Abstract(参考訳): 本稿では,エージェントがオフラインデータにアクセスでき,各アームの報酬分布の推定精度が向上する可能性のあるバンディット問題について検討する。
この設定における大きな障害は、観測データからの複合バイアスの存在である。
これらのバイアスを無視してモデルをバイアスデータに盲目的に適合させることは、オンライン学習フェーズに悪影響を及ぼす可能性がある。
本研究では,因果的観点からこの問題を定式化する。
まず, それらのバイアスを, 因果構造に基づいて統合バイアスと選択バイアスに分類する。
次に、偏りのある観測データから、複合バイアスに対して頑健な各腕の因果関係を抽出する。
導出された境界は基底真理平均報酬を含み、バンディットエージェントに最適に近い決定方針を学ぶように効果的に導くことができる。
また,文脈的および非文脈的バンディット設定において後悔の分析を行い,先行因果境界が漸近的後悔の軽減に寄与することを示した。
関連論文リスト
- Looking at Model Debiasing through the Lens of Anomaly Detection [11.113718994341733]
ディープニューラルネットワークはデータのバイアスに敏感である。
本稿では,異常検出に基づく新しいバイアス同定手法を提案する。
合成および実際のベンチマークデータセット上で、最先端のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-07-24T17:30:21Z) - Revisiting the Dataset Bias Problem from a Statistical Perspective [72.94990819287551]
統計的観点から「データセットバイアス」問題を考察する。
問題の主な原因は、クラス属性 u と非クラス属性 b の強い相関関係である。
本稿では,各試料nの目的をフラクタル1p(u_n|b_n)で重み付けするか,その試料をフラクタル1p(u_n|b_n)に比例してサンプリングすることにより,データセットバイアスを軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-05T22:58:06Z) - Approximating Counterfactual Bounds while Fusing Observational, Biased
and Randomised Data Sources [64.96984404868411]
我々は、複数の、偏見のある、観察的、介入的な研究からのデータを統合するという問題に対処する。
利用可能なデータの可能性は局所的な最大値を持たないことを示す。
次に、同じアプローチが複数のデータセットの一般的なケースにどのように対処できるかを示す。
論文 参考訳(メタデータ) (2023-07-31T11:28:24Z) - A Unified Framework of Policy Learning for Contextual Bandit with
Confounding Bias and Missing Observations [108.89353070722497]
本研究では,観測データを用いた最適ポリシの獲得を目的とした,オフラインのコンテキスト的帯域幅問題について検討する。
本稿では、積分方程式系の解として報酬関数を形成するCausal-Adjusted Pessimistic(CAP)ポリシー学習という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-20T15:17:31Z) - Unbiased Supervised Contrastive Learning [10.728852691100338]
本研究では,バイアスに頑健な表現を学習する問題に取り組む。
まず、偏りのあるデータを扱う際に、最近の対照的な損失がなぜ失敗するのかを明らかにするための、マージンに基づく理論的枠組みを提案する。
教師付きコントラスト損失(epsilon-SupInfoNCE)を新たに定式化し,正試料と負試料の最小距離をより正確に制御する。
理論的な枠組みのおかげで、極めて偏りのあるデータでもうまく機能する新しい偏りのある正規化損失であるFairKLも提案する。
論文 参考訳(メタデータ) (2022-11-10T13:44:57Z) - Self-supervised debiasing using low rank regularization [59.84695042540525]
純粋な相関は、ディープニューラルネットワークの強いバイアスを引き起こし、一般化能力を損なう可能性がある。
ラベルのないサンプルと互換性のある自己監督型脱バイアスフレームワークを提案する。
注目すべきは,提案フレームワークが自己教師付き学習ベースラインの一般化性能を著しく向上させることである。
論文 参考訳(メタデータ) (2022-10-11T08:26:19Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Cross Pairwise Ranking for Unbiased Item Recommendation [57.71258289870123]
我々はCPR(Cross Pairwise Ranking)という新しい学習パラダイムを開発する。
CPRは、露出メカニズムを知らずに不偏の推奨を達成する。
理論的には、この方法が学習に対するユーザ/イテムの適合性の影響を相殺することを証明する。
論文 参考訳(メタデータ) (2022-04-26T09:20:27Z) - Correcting Exposure Bias for Link Recommendation [31.799185352323807]
露出バイアスは、ユーザーが特定の関連項目に体系的に過小評価されているときに生じる。
このバイアスを軽減するために、既知の露光確率を利用する推定器を提案する。
我々の手法は、推奨論文の研究分野においてより多様性をもたらす。
論文 参考訳(メタデータ) (2021-06-13T16:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。