論文の概要: Effective Off-Policy Evaluation and Learning in Contextual Combinatorial Bandits
- arxiv url: http://arxiv.org/abs/2408.11202v1
- Date: Tue, 20 Aug 2024 21:25:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 19:09:22.848665
- Title: Effective Off-Policy Evaluation and Learning in Contextual Combinatorial Bandits
- Title(参考訳): コンテキスト・アベレーティブ・バンドにおける効果的なオフ・ポリティ・アセスメントと学習
- Authors: Tatsuhiro Shimizu, Koichi Tanaka, Ren Kishimoto, Haruka Kiyohara, Masahiro Nomura, Yuta Saito,
- Abstract要約: 文脈的包帯における非政治評価と学習について検討する。
この設定はレコメンデーターシステムやヘルスケアといった分野で広く使われている。
因子化された作用空間の概念を導入し、各サブセットをバイナリインジケータに分解する。
- 参考スコア(独自算出の注目度): 15.916834591090009
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore off-policy evaluation and learning (OPE/L) in contextual combinatorial bandits (CCB), where a policy selects a subset in the action space. For example, it might choose a set of furniture pieces (a bed and a drawer) from available items (bed, drawer, chair, etc.) for interior design sales. This setting is widespread in fields such as recommender systems and healthcare, yet OPE/L of CCB remains unexplored in the relevant literature. Typical OPE/L methods such as regression and importance sampling can be applied to the CCB problem, however, they face significant challenges due to high bias or variance, exacerbated by the exponential growth in the number of available subsets. To address these challenges, we introduce a concept of factored action space, which allows us to decompose each subset into binary indicators. This formulation allows us to distinguish between the ''main effect'' derived from the main actions, and the ''residual effect'', originating from the supplemental actions, facilitating more effective OPE. Specifically, our estimator, called OPCB, leverages an importance sampling-based approach to unbiasedly estimate the main effect, while employing regression-based approach to deal with the residual effect with low variance. OPCB achieves substantial variance reduction compared to conventional importance sampling methods and bias reduction relative to regression methods under certain conditions, as illustrated in our theoretical analysis. Experiments demonstrate OPCB's superior performance over typical methods in both OPE and OPL.
- Abstract(参考訳): 政策が行動空間のサブセットを選択する場合の文脈的組合せ帯域(CCB)におけるオフ・政治評価と学習(OPE/L)について検討する。
例えば、インテリアデザイン販売のために利用可能なアイテム(ベッド、引き出し、椅子など)から家具(ベッドと引き出し)のセットを選択することもある。
この設定はレコメンダシステムや医療といった分野に広く浸透しているが、CCBのOPE/Lは関連文献では未解明のままである。
回帰や重要サンプリングのような典型的なOPE/L法はCCB問題に適用できるが、これらの手法は、利用可能なサブセット数の指数的増加によって悪化する高いバイアスやばらつきのために重大な課題に直面している。
これらの課題に対処するために、各サブセットをバイナリインジケータに分解できるファクタードアクション空間の概念を導入する。
この定式化により、主作用から派生した「主効果」と補足作用から派生した「残留効果」とを区別し、より効果的なOPEを促進することができる。
特に, OPCBと呼ばれる推定器は, 低分散による残留効果に対処するため, 偏りなく主効果を推定するために, 重要サンプリングベースアプローチを利用する。
OPCBは, 従来の重要サンプリング法と比較して, 一定の条件下での回帰法に対するバイアス低減を, 理論的解析で示すように, かなりの分散化を実現している。
実験では、OPCBはOPEとOPLの両方で典型的な方法よりも優れた性能を示している。
関連論文リスト
- Causal Deepsets for Off-policy Evaluation under Spatial or Spatio-temporal Interferences [24.361550505778155]
オフコマース評価(OPE)は、医薬品やe-policy-policyなどの分野に広く適用されている。
本稿では,いくつかの重要な構造的仮定を緩和する因果的深層化フレームワークを提案する。
PI仮定をOPEに組み込んだ新しいアルゴリズムを提案し,その理論的基礎を徹底的に検証する。
論文 参考訳(メタデータ) (2024-07-25T10:02:11Z) - Controllable Relation Disentanglement for Few-Shot Class-Incremental Learning [82.79371269942146]
本稿では,FewShot Class-Incremental Learning (FSCIL) を新たな視点,すなわち関係の絡み合いから扱うことを提案する。
急激な相関関係を切り離すことの課題は、FSCILの制御性が悪いことである。
我々は、CTRL-FSCIL(Controllable Relation-disentang FewShot Class-Incremental Learning)と呼ばれる、新しいシンプルな効果のある手法を提案する。
論文 参考訳(メタデータ) (2024-03-17T03:16:59Z) - Bayesian Off-Policy Evaluation and Learning for Large Action Spaces [14.203316003782604]
対話型システムでは、アクションはよく相関し、よりサンプリング効率の良いオフ・ポリシーの評価と学習の機会を提供する。
我々は、これらの相関関係を構造化および情報的事前を通じて捉えるために、統一されたベイズ的枠組みを導入する。
我々は,OPEとOPLの一般ベイズ的アプローチであるsDMを提案する。
論文 参考訳(メタデータ) (2024-02-22T16:09:45Z) - Off-Policy Evaluation of Slate Bandit Policies via Optimizing
Abstraction [22.215852332444907]
政策がスレートとして知られる多次元動作を選択する場合のスレート・コンテクスト・バンドイットの問題について検討する。
Inverse Propensity Scoring (IPS) の典型的な推定器は、大きな作用空間のためにかなりのばらつきに悩まされる。
我々は,低次元スレート抽象空間における重み付けを規定するラテントIPS (LIPS) と呼ばれる,スレート包帯のOPEの新しい推定器を開発した。
論文 参考訳(メタデータ) (2024-02-03T14:38:09Z) - Benchmarking Bayesian Causal Discovery Methods for Downstream Treatment
Effect Estimation [137.3520153445413]
下流推論に重点を置く因果発見手法の評価において,顕著なギャップが存在する。
我々は,GFlowNetsに基づく新たな手法を含む,確立された7つの基本因果探索手法を評価する。
研究の結果,研究対象のアルゴリズムのいくつかは,多種多様なATEモードを効果的に捉えることができることがわかった。
論文 参考訳(メタデータ) (2023-07-11T02:58:10Z) - Off-Policy Evaluation for Large Action Spaces via Conjunct Effect
Modeling [30.835774920236872]
大規模離散行動空間に対する文脈的帯域ポリシーの非政治的評価について検討する。
共役効果モデル (CEM) に基づく新しい推定器であるOffCEMを提案し, 因果効果をクラスター効果に分解し, 残留効果を示す。
実験により、OFCEMは特に多くのアクションが存在する場合、OPEを大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-05-14T04:16:40Z) - Contextual Bandits for Advertising Campaigns: A Diffusion-Model
Independent Approach (Extended Version) [73.59962178534361]
拡散ネットワークや情報伝達の仕方を決定するモデルについてはほとんど知られていないと考えられる影響問題について検討する。
この設定では、キャンペーンの実行中に主要な拡散パラメータを学習するために探索-探索アプローチが使用できる。
本稿では,2つの文脈的マルチアーム・バンディットの手法と,インフルエンサーの残りのポテンシャルに対する上限について比較する。
論文 参考訳(メタデータ) (2022-01-13T22:06:10Z) - Assessment of Treatment Effect Estimators for Heavy-Tailed Data [70.72363097550483]
ランダム化制御試験(RCT)における治療効果の客観的評価における中心的な障害は、その性能をテストするための基礎的真理(または検証セット)の欠如である。
この課題に対処するための新しいクロスバリデーションのような方法論を提供する。
本手法は,Amazonサプライチェーンに実装された709RCTに対して評価を行った。
論文 参考訳(メタデータ) (2021-12-14T17:53:01Z) - Performance Evaluation of Adversarial Attacks: Discrepancies and
Solutions [51.8695223602729]
機械学習モデルの堅牢性に挑戦するために、敵対攻撃方法が開発されました。
本稿では,Piece-wise Sampling Curving(PSC)ツールキットを提案する。
psc toolkitは計算コストと評価効率のバランスをとるオプションを提供する。
論文 参考訳(メタデータ) (2021-04-22T14:36:51Z) - Deconfounding Scores: Feature Representations for Causal Effect
Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。
分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。
特に,この手法が標準正規化の魅力的な代替となることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:50:11Z) - Confounding Feature Acquisition for Causal Effect Estimation [6.174721516017138]
我々は,この課題を因果推論のための特徴獲得の問題として捉えている。
我々のゴールは、効率的な平均治療効果の推定につながるサンプルにおいて、行方不明の共同創業者の固定的で既知のサブセットの取得値を優先順位付けすることです。
論文 参考訳(メタデータ) (2020-11-17T16:28:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。