論文の概要: Unraveling the Interplay between Carryover Effects and Reward Autocorrelations in Switchback Experiments
- arxiv url: http://arxiv.org/abs/2403.17285v3
- Date: Thu, 29 May 2025 12:21:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.245146
- Title: Unraveling the Interplay between Carryover Effects and Reward Autocorrelations in Switchback Experiments
- Title(参考訳): スイッチバック実験におけるキャリーオーバー効果と逆自己相関の相互作用の解明
- Authors: Qianglin Wen, Chengchun Shi, Ying Yang, Niansheng Tang, Hongtu Zhu,
- Abstract要約: 本稿ではマルコフ環境における様々なスイッチバック設計の比較分析を行う。
その結果, 異なるスイッチバック設計の有効性は, (i) 搬送効果の大きさと (ii) 報奨誤差の自己相関に大きく依存していることが判明した。
- 参考スコア(独自算出の注目度): 16.834845593207444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A/B testing has become the gold standard for policy evaluation in modern technological industries. Motivated by the widespread use of switchback experiments in A/B testing, this paper conducts a comprehensive comparative analysis of various switchback designs in Markovian environments. Unlike many existing works which derive the optimal design based on specific and relatively simple estimators, our analysis covers a range of state-of-the-art estimators developed in the reinforcement learning (RL) literature. It reveals that the effectiveness of different switchback designs depends crucially on (i) the size of the carryover effect and (ii) the auto-correlations among reward errors over time. Meanwhile, these findings are estimator-agnostic, i.e., they apply to most RL estimators. Based on these insights, we provide a workflow to offer guidelines for practitioners on designing switchback experiments in A/B testing.
- Abstract(参考訳): A/Bテストは近代技術産業における政策評価のゴールドスタンダードとなっている。
本稿では,A/Bテストにおけるスイッチバック実験の広範な利用を動機として,マルコフ環境におけるスイッチバック設計の包括的比較分析を行う。
具体的かつ比較的単純な推定器に基づく最適設計を導出する既存の多くの研究とは異なり、本研究では、強化学習(RL)文献で開発された最先端の推定器を網羅する。
それは、異なるスイッチバック設計の有効性が決定的に依存していることを明らかにする。
一 運送効果の大きさ及び大きさ
(二 報酬誤差の自己相関
一方、これらの所見は推定器に依存しない、すなわちほとんどのRL推定器に適用される。
これらの知見に基づいて、私たちは、A/Bテストでスイッチバック実験を設計する実践者のためのガイドラインを提供するワークフローを提供します。
関連論文リスト
- Active Evaluation Acquisition for Efficient LLM Benchmarking [18.85604491151409]
学習ポリシを用いて,各ベンチマークからサンプルのサブセットを選択することにより,評価効率を向上させる戦略を検討する。
提案手法は,テスト例間の依存関係をモデル化し,残りの例に対する評価結果の正確な予測を可能にする。
実験の結果,提案手法は必要な評価プロンプトの数を大幅に削減することが示された。
論文 参考訳(メタデータ) (2024-10-08T12:08:46Z) - Automated Off-Policy Estimator Selection via Supervised Learning [7.476028372444458]
オフ・ポリティ・アセスメント(OPE)問題(Off-Policy Evaluation)は、相手が収集したデータを用いて、対実的なポリシーの性能を評価することである。
OPEの問題を解決するために,我々は,ロギングポリシに代えて配置された場合の対策策が持つパフォーマンスを,最も正確な方法で推定することを目的とした推定器を利用する。
教師付き学習に基づく自動データ駆動型OPE推定器選択法を提案する。
論文 参考訳(メタデータ) (2024-06-26T02:34:48Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Best-Effort Adaptation [62.00856290846247]
本稿では, 試料再重み付け法に関する新しい理論的解析を行い, 試料再重み付け法を一様に保持する境界について述べる。
これらの境界が、我々が詳細に議論する学習アルゴリズムの設計を導く方法を示す。
本稿では,本アルゴリズムの有効性を実証する一連の実験結果について報告する。
論文 参考訳(メタデータ) (2023-05-10T00:09:07Z) - Decision-BADGE: Decision-based Adversarial Batch Attack with Directional
Gradient Estimation [0.0]
Decision-BADGEは、決定ベースのブラックボックス攻撃を実行するために、普遍的な敵の摂動を構築する新しい方法である。
提案手法は,トレーニング時間が少なく,良好な成功率を示す。
この研究は、Decision-BADGEが未確認の犠牲者モデルを無視し、特定のクラスを正確にターゲットすることができることも示している。
論文 参考訳(メタデータ) (2023-03-09T01:42:43Z) - Design Amortization for Bayesian Optimal Experimental Design [70.13948372218849]
予測情報ゲイン(EIG)のバウンダリに関してパラメータ化された変分モデルを最適化する。
実験者が1つの変分モデルを最適化し、潜在的に無限に多くの設計に対してEIGを推定できる新しいニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-10-07T02:12:34Z) - An Investigation of the Bias-Variance Tradeoff in Meta-Gradients [53.28925387487846]
ヘッセン推定は常にバイアスを追加し、メタ階調推定に分散を加えることもできる。
提案手法は, 乱れたバックプロパゲーションとサンプリング補正から生じるバイアスとばらつきのトレードオフについて検討する。
論文 参考訳(メタデータ) (2022-09-22T20:33:05Z) - Variance-Optimal Augmentation Logging for Counterfactual Evaluation in
Contextual Bandits [25.153656462604268]
オフラインのA/Bテストと反ファクトラーニングの手法は、検索システムやレコメンデーションシステムに急速に採用されている。
これらの手法で一般的に使用される対物推定器は、ログポリシが評価対象のポリシーと大きく異なる場合、大きなバイアスと大きなばらつきを持つ可能性がある。
本稿では,下流評価や学習問題の分散を最小限に抑えるロギングポリシーを構築するための,MVAL(Minimum Variance Augmentation Logging)を提案する。
論文 参考訳(メタデータ) (2022-02-03T17:37:11Z) - Performance Evaluation of Adversarial Attacks: Discrepancies and
Solutions [51.8695223602729]
機械学習モデルの堅牢性に挑戦するために、敵対攻撃方法が開発されました。
本稿では,Piece-wise Sampling Curving(PSC)ツールキットを提案する。
psc toolkitは計算コストと評価効率のバランスをとるオプションを提供する。
論文 参考訳(メタデータ) (2021-04-22T14:36:51Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。