論文の概要: IntOPE: Off-Policy Evaluation in the Presence of Interference
- arxiv url: http://arxiv.org/abs/2408.13484v1
- Date: Sat, 24 Aug 2024 06:07:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 19:19:21.634718
- Title: IntOPE: Off-Policy Evaluation in the Presence of Interference
- Title(参考訳): IntOPE: 干渉の有無におけるオフ・ポリティ・アセスメント
- Authors: Yuqi Bai, Ziyu Zhao, Minqin Zhu, Kun Kuang,
- Abstract要約: オフ・ポリティ・アセスメント(OPE: Off-Policy Evaluation)は、仮説的政策の潜在的影響を評価するために用いられる。
IntIPWはIPWスタイルの推定器で、個々のアクションと隣接するエンティティの影響の両方を考慮し、重要度を極端に統合する。
- 参考スコア(独自算出の注目度): 23.167697252901398
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Off-Policy Evaluation (OPE) is employed to assess the potential impact of a hypothetical policy using logged contextual bandit feedback, which is crucial in areas such as personalized medicine and recommender systems, where online interactions are associated with significant risks and costs. Traditionally, OPE methods rely on the Stable Unit Treatment Value Assumption (SUTVA), which assumes that the reward for any given individual is unaffected by the actions of others. However, this assumption often fails in real-world scenarios due to the presence of interference, where an individual's reward is affected not just by their own actions but also by the actions of their peers. This realization reveals significant limitations of existing OPE methods in real-world applications. To address this limitation, we propose IntIPW, an IPW-style estimator that extends the Inverse Probability Weighting (IPW) framework by integrating marginalized importance weights to account for both individual actions and the influence of adjacent entities. Extensive experiments are conducted on both synthetic and real-world data to demonstrate the effectiveness of the proposed IntIPW method.
- Abstract(参考訳): オフ・ポリシィ・アセスメント(OPE: Off-Policy Evaluation)は、個人化された医療やレコメンデーションシステムなど、オンラインインタラクションが重大なリスクやコストに結びついている分野において重要な、ログ化された文脈的包括的フィードバックを用いて、仮説的ポリシーの潜在的影響を評価するために用いられる。
伝統的に、OPEの手法は安定単位処理値推定 (SUTVA) に依存しており、これは任意の個人に対する報酬が他人の行動に影響されないと仮定している。
しかし、この仮定は、個人が自分の行動だけでなく、仲間の行動にも影響される、干渉の存在によって現実のシナリオで失敗することが多い。
この実現は、現実世界のアプリケーションにおける既存のOPEメソッドの重大な制限を明らかにしている。
この制限に対処するため,IPW(Inverse Probability Weighting, 逆確率重み付け)フレームワークを拡張したIPW型推定器であるIntIPWを提案する。
IntIPW法の有効性を実証するために, 合成データと実世界のデータの両方を用いて大規模な実験を行った。
関連論文リスト
- Causal Deepsets for Off-policy Evaluation under Spatial or Spatio-temporal Interferences [24.361550505778155]
オフコマース評価(OPE)は、医薬品やe-policy-policyなどの分野に広く適用されている。
本稿では,いくつかの重要な構造的仮定を緩和する因果的深層化フレームワークを提案する。
PI仮定をOPEに組み込んだ新しいアルゴリズムを提案し,その理論的基礎を徹底的に検証する。
論文 参考訳(メタデータ) (2024-07-25T10:02:11Z) - Individualized Policy Evaluation and Learning under Clustered Network
Interference [4.560284382063488]
クラスタ化されたネットワーク干渉下での最適個別化処理ルールの評価と学習の問題点を考察する。
ITRの実証性能を評価するための推定器を提案する。
学習ITRに対する有限サンプル残差を導出し、効率的な評価推定器の使用により学習ポリシーの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-11-04T17:58:24Z) - Benchmarking Bayesian Causal Discovery Methods for Downstream Treatment
Effect Estimation [137.3520153445413]
下流推論に重点を置く因果発見手法の評価において,顕著なギャップが存在する。
我々は,GFlowNetsに基づく新たな手法を含む,確立された7つの基本因果探索手法を評価する。
研究の結果,研究対象のアルゴリズムのいくつかは,多種多様なATEモードを効果的に捉えることができることがわかった。
論文 参考訳(メタデータ) (2023-07-11T02:58:10Z) - Off-Policy Evaluation for Large Action Spaces via Conjunct Effect
Modeling [30.835774920236872]
大規模離散行動空間に対する文脈的帯域ポリシーの非政治的評価について検討する。
共役効果モデル (CEM) に基づく新しい推定器であるOffCEMを提案し, 因果効果をクラスター効果に分解し, 残留効果を示す。
実験により、OFCEMは特に多くのアクションが存在する場合、OPEを大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-05-14T04:16:40Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Debiasing Recommendation by Learning Identifiable Latent Confounders [49.16119112336605]
コンバウンディングバイアスは、ユーザの露出とフィードバックの両方に影響を与える未測定変数の存在によって生じる。
既存の手法では,(1) 未測定変数について不確定な仮定を行うか,(2) 潜伏した共同創設者を直接ユーザの露出から推測する。
本稿では、上記の非識別問題の解決にプロキシ変数の集合を利用する新しい方法、すなわち、識別可能なデコノウ(iDCF)を提案する。
論文 参考訳(メタデータ) (2023-02-10T05:10:26Z) - An Instrumental Variable Approach to Confounded Off-Policy Evaluation [11.785128674216903]
オフ政治評価(Off-policy Evaluation、OPE)は、目標政策の回帰を推定する手法である。
本稿では,マルコフ決定過程における一貫した OPE のインストゥルメンタル変数 (IV) に基づく手法を提案する。
論文 参考訳(メタデータ) (2022-12-29T22:06:51Z) - Off-Policy Confidence Interval Estimation with Confounded Markov
Decision Process [14.828039846764549]
システム力学における動作の影響を媒介する補助変数によっては、マルコフ決定過程において対象ポリシーの値が識別可能であることを示す。
提案手法は, ライドシェアリング会社から得られた理論的結果, シミュレーション, 実データによって正当化される。
論文 参考訳(メタデータ) (2022-02-22T00:03:48Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。