論文の概要: Causal Deepsets for Off-policy Evaluation under Spatial or Spatio-temporal Interferences
- arxiv url: http://arxiv.org/abs/2407.17910v1
- Date: Thu, 25 Jul 2024 10:02:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 14:28:24.763774
- Title: Causal Deepsets for Off-policy Evaluation under Spatial or Spatio-temporal Interferences
- Title(参考訳): 空間的・時空間的干渉下における非政治評価のための因果的深度
- Authors: Runpeng Dai, Jianing Wang, Fan Zhou, Shikai Luo, Zhiwei Qin, Chengchun Shi, Hongtu Zhu,
- Abstract要約: オフコマース評価(OPE)は、医薬品やe-policy-policyなどの分野に広く適用されている。
本稿では,いくつかの重要な構造的仮定を緩和する因果的深層化フレームワークを提案する。
PI仮定をOPEに組み込んだ新しいアルゴリズムを提案し,その理論的基礎を徹底的に検証する。
- 参考スコア(独自算出の注目度): 24.361550505778155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy evaluation (OPE) is widely applied in sectors such as pharmaceuticals and e-commerce to evaluate the efficacy of novel products or policies from offline datasets. This paper introduces a causal deepset framework that relaxes several key structural assumptions, primarily the mean-field assumption, prevalent in existing OPE methodologies that handle spatio-temporal interference. These traditional assumptions frequently prove inadequate in real-world settings, thereby restricting the capability of current OPE methods to effectively address complex interference effects. In response, we advocate for the implementation of the permutation invariance (PI) assumption. This innovative approach enables the data-driven, adaptive learning of the mean-field function, offering a more flexible estimation method beyond conventional averaging. Furthermore, we present novel algorithms that incorporate the PI assumption into OPE and thoroughly examine their theoretical foundations. Our numerical analyses demonstrate that this novel approach yields significantly more precise estimations than existing baseline algorithms, thereby substantially improving the practical applicability and effectiveness of OPE methodologies. A Python implementation of our proposed method is available at https://github.com/BIG-S2/Causal-Deepsets.
- Abstract(参考訳): オフ・ポリティィ・アセスメント(OPE)は、医薬品や電子商取引などの分野において、新規製品の有効性やオフラインデータセットからのポリシーを評価するために広く適用されている。
本稿では、時空間干渉を扱う既存のOPE手法に代表される、いくつかの重要な構造的仮定、主に平均場仮定を緩和する因果的深層化フレームワークを提案する。
これらの従来の仮定は、実世界の環境では不十分であることがしばしば証明され、それによって、複雑な干渉効果に効果的に対処する現在のOPEメソッドの能力が制限される。
これに対し、置換不変性(PI)の仮定の実装を提唱する。
この革新的なアプローチは平均場関数のデータ駆動適応学習を可能にし、従来の平均値を超えるより柔軟な推定方法を提供する。
さらに、PI仮定をOPEに組み込んだ新しいアルゴリズムを提案し、その理論的基礎を徹底的に検証する。
数値解析により,本手法は既存のベースラインアルゴリズムよりも精度が高く,OPE手法の実用性や有効性を大幅に向上することが示された。
提案手法のPython実装はhttps://github.com/BIG-S2/Causal-Deepsetsで公開されている。
関連論文リスト
- Bayesian Off-Policy Evaluation and Learning for Large Action Spaces [14.203316003782604]
対話型システムでは、アクションはよく相関し、よりサンプリング効率の良いオフ・ポリシーの評価と学習の機会を提供する。
我々は、これらの相関関係を構造化および情報的事前を通じて捉えるために、統一されたベイズ的枠組みを導入する。
我々は,OPEとOPLの一般ベイズ的アプローチであるsDMを提案する。
論文 参考訳(メタデータ) (2024-02-22T16:09:45Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Benchmarking Bayesian Causal Discovery Methods for Downstream Treatment
Effect Estimation [137.3520153445413]
下流推論に重点を置く因果発見手法の評価において,顕著なギャップが存在する。
我々は,GFlowNetsに基づく新たな手法を含む,確立された7つの基本因果探索手法を評価する。
研究の結果,研究対象のアルゴリズムのいくつかは,多種多様なATEモードを効果的に捉えることができることがわかった。
論文 参考訳(メタデータ) (2023-07-11T02:58:10Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Off-policy evaluation for learning-to-rank via interpolating the
item-position model and the position-based model [83.83064559894989]
産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。
我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。
特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
論文 参考訳(メタデータ) (2022-10-15T17:22:30Z) - Offline Policy Optimization with Eligible Actions [34.4530766779594]
オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。
そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-01T19:18:15Z) - Off-Policy Evaluation for Large Action Spaces via Embeddings [36.42838320396534]
文脈的包帯におけるオフ政治評価(OPE)は、現実世界のシステムで急速に採用されている。
既存のOPE推定器は、アクションの数が大きいと著しく劣化する。
我々は,アクション埋め込みがアクション空間の構造を提供する際に,余分な重み付けを生かした新しいOPE推定器を提案する。
論文 参考訳(メタデータ) (2022-02-13T14:00:09Z) - Doubly Robust Interval Estimation for Optimal Policy Evaluation in Online Learning [8.736154600219685]
オンライン学習における政策評価が注目を集めている。
しかし、オンライン環境で生成された依存データのため、このような問題は特に困難である。
本研究では,オンライン学習における最適ポリシーに基づいて,2倍頑健区間推定法(DREAM)を開発した。
論文 参考訳(メタデータ) (2021-10-29T02:38:54Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。