論文の概要: Leveraging Factored Action Spaces for Off-Policy Evaluation
- arxiv url: http://arxiv.org/abs/2307.07014v1
- Date: Thu, 13 Jul 2023 18:34:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 15:38:51.274649
- Title: Leveraging Factored Action Spaces for Off-Policy Evaluation
- Title(参考訳): オフ・ポリティ・アセスメントのための要因的行動空間の活用
- Authors: Aaman Rebello (1), Shengpu Tang (2), Jenna Wiens (2), Sonali Parbhoo
(1) ((1) Department of Engineering, Imperial College London, (2) Division of
Computer Science & Engineering, University of Michigan)
- Abstract要約: オフ・ポリティィ・アセスメント(OPE: Off-policy Evaluation)は、反現実的な行動列に従う利点を推定することを目的としている。
既存のOPE推定器は、大きく分解された作用空間に関わる問題において、高いバイアスと高いばらつきを示すことが多い。
本稿では,因子的作用空間に基づく「分解」重要サンプリング(IS)推定器の新たなファミリーを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy evaluation (OPE) aims to estimate the benefit of following a
counterfactual sequence of actions, given data collected from executed
sequences. However, existing OPE estimators often exhibit high bias and high
variance in problems involving large, combinatorial action spaces. We
investigate how to mitigate this issue using factored action spaces i.e.
expressing each action as a combination of independent sub-actions from smaller
action spaces. This approach facilitates a finer-grained analysis of how
actions differ in their effects. In this work, we propose a new family of
"decomposed" importance sampling (IS) estimators based on factored action
spaces. Given certain assumptions on the underlying problem structure, we prove
that the decomposed IS estimators have less variance than their original
non-decomposed versions, while preserving the property of zero bias. Through
simulations, we empirically verify our theoretical results, probing the
validity of various assumptions. Provided with a technique that can derive the
action space factorisation for a given problem, our work shows that OPE can be
improved "for free" by utilising this inherent problem structure.
- Abstract(参考訳): オフ・ポリティ・アセスメント(OPE)は、実行されたシーケンスから収集されたデータに対して、反実的なアクション列に従う利点を推定することを目的としている。
しかしながら、既存のope推定器は、大きな組合せ作用空間を含む問題において高いバイアスと高い分散を示すことが多い。
より小さなアクション空間からの独立なサブアクションの組み合わせとして各アクションを表現して、この問題を緩和する方法を検討する。
このアプローチは、アクションの効果がどのように異なるかのよりきめ細かい分析を促進する。
本研究では,因子付き行動空間に基づく「分解」重要度サンプリング(is)推定器の新たなファミリーを提案する。
基礎となる問題構造に関する仮定を考えると、分解されたIS推定器は、ゼロバイアスの特性を保ちながら、元の非分解バージョンよりも分散が小さいことが証明される。
シミュレーションによって理論結果を実証し,様々な仮定の有効性を検証した。
与えられた問題に対する作用空間因子化を導出できる手法が与えられ、本研究は本質的な問題構造を利用してopeを「無償で」改善できることを示す。
関連論文リスト
- Exogenous Matching: Learning Good Proposals for Tractable Counterfactual Estimation [1.9662978733004601]
本稿では, 抽出可能かつ効率的な対実表現推定のための重要サンプリング手法を提案する。
対物推定器の共通上限を最小化することにより、分散最小化問題を条件分布学習問題に変換する。
構造因果モデル (Structure Causal Models, SCM) の様々なタイプと設定による実験による理論的結果の検証と, 対実推定タスクにおける性能の実証を行った。
論文 参考訳(メタデータ) (2024-10-17T03:08:28Z) - Benchmarking Bayesian Causal Discovery Methods for Downstream Treatment
Effect Estimation [137.3520153445413]
下流推論に重点を置く因果発見手法の評価において,顕著なギャップが存在する。
我々は,GFlowNetsに基づく新たな手法を含む,確立された7つの基本因果探索手法を評価する。
研究の結果,研究対象のアルゴリズムのいくつかは,多種多様なATEモードを効果的に捉えることができることがわかった。
論文 参考訳(メタデータ) (2023-07-11T02:58:10Z) - Doubly Robust Kernel Statistics for Testing Distributional Treatment
Effects [18.791409397894835]
我々は、再生産ケルネルヒルベルト空間(RKHS)内の因果分布を表すために、以前に導入されたフレームワークである対実平均埋め込みを構築した。
これらの改良された推定器は、カーネル空間内の同様の形式を用いて、因果平均の二重に頑健な推定器に着想を得ている。
これにより, 分布因果効果に対する新しい変分に基づく検定が実現し, 提案する推定器を検定統計として利用した。
論文 参考訳(メタデータ) (2022-12-09T15:32:19Z) - Markovian Interference in Experiments [7.426870925611945]
いくつかの実験ユニットへの介入が制限的制約によって他のユニットに影響を及ぼす力学系の実験について考察する。
実用的重要性を誇張しているにもかかわらず、この問題の最良の推定者は、主に本質的であり、そのバイアスはよく理解されていない。
オフ・ポリティクスの見積もり者は、偏見のないが、明らかに最先端の代替手段と比較して大きなペナルティを生んでいる。
本稿では,DQ(差分-In-Q)推定器を提案する。
論文 参考訳(メタデータ) (2022-06-06T05:53:36Z) - Off-Policy Evaluation for Large Action Spaces via Embeddings [36.42838320396534]
文脈的包帯におけるオフ政治評価(OPE)は、現実世界のシステムで急速に採用されている。
既存のOPE推定器は、アクションの数が大きいと著しく劣化する。
我々は,アクション埋め込みがアクション空間の構造を提供する際に,余分な重み付けを生かした新しいOPE推定器を提案する。
論文 参考訳(メタデータ) (2022-02-13T14:00:09Z) - Deconfounding Scores: Feature Representations for Causal Effect
Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。
分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。
特に,この手法が標準正規化の魅力的な代替となることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:50:11Z) - Causal Inference Under Unmeasured Confounding With Negative Controls: A
Minimax Learning Approach [84.29777236590674]
すべての共同設立者が観察されず、代わりに負の制御が利用可能である場合の因果パラメータの推定について検討する。
最近の研究は、2つのいわゆるブリッジ関数による同定と効率的な推定を可能にする方法を示している。
論文 参考訳(メタデータ) (2021-03-25T17:59:19Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z) - Almost-Matching-Exactly for Treatment Effect Estimation under Network
Interference [73.23326654892963]
本研究では,観測ネットワーク上でユニットが接続されたランダム化実験から直接処理効果を回復するマッチング手法を提案する。
本手法は, 近傍グラフ内の一意部分グラフの個数にほぼ一致する。
論文 参考訳(メタデータ) (2020-03-02T15:21:20Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。