論文の概要: An Analysis of Switchback Designs in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.17285v2
- Date: Sat, 05 Oct 2024 04:24:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 21:53:04.660758
- Title: An Analysis of Switchback Designs in Reinforcement Learning
- Title(参考訳): 強化学習におけるスイッチバック設計の分析
- Authors: Qianglin Wen, Chengchun Shi, Ying Yang, Niansheng Tang, Hongtu Zhu,
- Abstract要約: 本稿では,A/Bテストにおけるスイッチバック設計について詳細に検討し,基本方針と新方針を時間とともに交互に検討する。
決定処理環境における平均二乗誤差(MSE)の計算を大幅に単純化する「弱信号解析」フレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.834845593207444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper offers a detailed investigation of switchback designs in A/B testing, which alternate between baseline and new policies over time. Our aim is to thoroughly evaluate the effects of these designs on the accuracy of their resulting average treatment effect (ATE) estimators. We propose a novel "weak signal analysis" framework, which substantially simplifies the calculations of the mean squared errors (MSEs) of these ATEs in Markov decision process environments. Our findings suggest that (i) when the majority of reward errors are positively correlated, the switchback design is more efficient than the alternating-day design which switches policies in a daily basis. Additionally, increasing the frequency of policy switches tends to reduce the MSE of the ATE estimator. (ii) When the errors are uncorrelated, however, all these designs become asymptotically equivalent. (iii) In cases where the majority of errors are negative correlated, the alternating-day design becomes the optimal choice. These insights are crucial, offering guidelines for practitioners on designing experiments in A/B testing. Our analysis accommodates a variety of policy value estimators, including model-based estimators, least squares temporal difference learning estimators, and double reinforcement learning estimators, thereby offering a comprehensive understanding of optimal design strategies for policy evaluation in reinforcement learning.
- Abstract(参考訳): 本稿では,A/Bテストにおけるスイッチバック設計について詳細に検討し,基本方針と新方針を時間とともに交互に検討する。
本研究の目的は,これらの設計が得られた平均処理効果(ATE)推定値の精度に与える影響を徹底的に評価することである。
マルコフ決定処理環境におけるこれらのATEの平均二乗誤差(MSE)の計算を大幅に単純化する「弱信号解析」フレームワークを提案する。
私たちの発見は
一 報酬誤差の大多数が正の相関関係にあるときは、日々の方針を切り替える連日設計よりも、スイッチバック設計の方が効率的である。
さらに、ポリシースイッチの頻度が増加すると、ATE推定器のMSEが減少する傾向にある。
2) 誤差が非相関である場合、これらの設計はすべて漸近的に等価となる。
三 エラーの大多数が負の相関関係にある場合において、変更日の設計が最適な選択となること。
これらの洞察は、A/Bテストで実験を設計する実践者のためのガイドラインとして重要である。
本分析は,モデルに基づく時間差分推定器,最小二乗時間差分推定器,二重強化学習推定器など,様々な政策価値推定器に対応し,強化学習における政策評価のための最適設計戦略の総合的理解を提供する。
関連論文リスト
- From Replication to Redesign: Exploring Pairwise Comparisons for LLM-Based Peer Review [11.761671590108406]
原稿間の相互比較を行うために,LLMエージェントを用いた新しいメカニズムを導入,検討する。
この比較手法は, 従来の評価に基づく手法よりも, 高インパクト論文の同定に優れることを示した。
論文 参考訳(メタデータ) (2025-06-12T22:27:20Z) - Practical Improvements of A/B Testing with Off-Policy Estimation [51.25970890274447]
従来の手法よりも分散度を低くする非バイアスのオフ・ポリティクス推定器のファミリーを導入する。
提案手法の有効性と実用性を理論的に検証した。
論文 参考訳(メタデータ) (2025-06-12T13:11:01Z) - Enhancing CTR Prediction with De-correlated Expert Networks [53.05653547330796]
本稿では,専門的相関を最小化するクロスエキスパートデコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・
D-MoEの有効性とデコリレーション原理を検証するために大規模な実験が行われた。
論文 参考訳(メタデータ) (2025-05-23T14:04:38Z) - Active Evaluation Acquisition for Efficient LLM Benchmarking [18.85604491151409]
学習ポリシを用いて,各ベンチマークからサンプルのサブセットを選択することにより,評価効率を向上させる戦略を検討する。
提案手法は,テスト例間の依存関係をモデル化し,残りの例に対する評価結果の正確な予測を可能にする。
実験の結果,提案手法は必要な評価プロンプトの数を大幅に削減することが示された。
論文 参考訳(メタデータ) (2024-10-08T12:08:46Z) - UDA-Bench: Revisiting Common Assumptions in Unsupervised Domain Adaptation Using a Standardized Framework [59.428668614618914]
現代無監督領域適応法(UDA)の有効性に影響を及ぼす様々な要因について, より深く考察する。
分析を容易にするため,ドメイン適応のためのトレーニングと評価を標準化する新しいPyTorchフレームワークであるUDA-Benchを開発した。
論文 参考訳(メタデータ) (2024-09-23T17:57:07Z) - Automated Off-Policy Estimator Selection via Supervised Learning [7.476028372444458]
オフ・ポリティ・アセスメント(OPE)問題(Off-Policy Evaluation)は、相手が収集したデータを用いて、対実的なポリシーの性能を評価することである。
OPEの問題を解決するために,我々は,ロギングポリシに代えて配置された場合の対策策が持つパフォーマンスを,最も正確な方法で推定することを目的とした推定器を利用する。
教師付き学習に基づく自動データ駆動型OPE推定器選択法を提案する。
論文 参考訳(メタデータ) (2024-06-26T02:34:48Z) - Benchmarking for Deep Uplift Modeling in Online Marketing [17.70084353772874]
将来性のある手法としての深層揚力モデリング(DUM)は、アカデミアや産業界からの研究を惹きつけている。
現在のDUMには、標準化されたベンチマークと統一された評価プロトコルがまだ欠けている。
DUMのオープンベンチマークと既存モデルとの比較結果を再現可能で均一な方法で提示する。
論文 参考訳(メタデータ) (2024-06-01T07:23:37Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Adaptive Instrument Design for Indirect Experiments [48.815194906471405]
RCTとは異なり、間接的な実験は条件付き機器変数を利用して治療効果を推定する。
本稿では,データ収集ポリシーを適応的に設計することで,間接実験におけるサンプル効率の向上に向けた最初のステップについて述べる。
我々の主な貢献は、影響関数を利用して最適なデータ収集ポリシーを探索する実用的な計算手順である。
論文 参考訳(メタデータ) (2023-12-05T02:38:04Z) - Best-Effort Adaptation [62.00856290846247]
本稿では, 試料再重み付け法に関する新しい理論的解析を行い, 試料再重み付け法を一様に保持する境界について述べる。
これらの境界が、我々が詳細に議論する学習アルゴリズムの設計を導く方法を示す。
本稿では,本アルゴリズムの有効性を実証する一連の実験結果について報告する。
論文 参考訳(メタデータ) (2023-05-10T00:09:07Z) - A Common Misassumption in Online Experiments with Machine Learning
Models [1.52292571922932]
変種は一般的にプールデータを使って学習するため、モデル干渉の欠如は保証できない、と我々は主張する。
実践者や研究文献に対する影響について論じる。
論文 参考訳(メタデータ) (2023-04-21T11:36:44Z) - Decision-BADGE: Decision-based Adversarial Batch Attack with Directional
Gradient Estimation [0.0]
Decision-BADGEは、決定ベースのブラックボックス攻撃を実行するために、普遍的な敵の摂動を構築する新しい方法である。
提案手法は,トレーニング時間が少なく,良好な成功率を示す。
この研究は、Decision-BADGEが未確認の犠牲者モデルを無視し、特定のクラスを正確にターゲットすることができることも示している。
論文 参考訳(メタデータ) (2023-03-09T01:42:43Z) - Design Amortization for Bayesian Optimal Experimental Design [70.13948372218849]
予測情報ゲイン(EIG)のバウンダリに関してパラメータ化された変分モデルを最適化する。
実験者が1つの変分モデルを最適化し、潜在的に無限に多くの設計に対してEIGを推定できる新しいニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-10-07T02:12:34Z) - An Investigation of the Bias-Variance Tradeoff in Meta-Gradients [53.28925387487846]
ヘッセン推定は常にバイアスを追加し、メタ階調推定に分散を加えることもできる。
提案手法は, 乱れたバックプロパゲーションとサンプリング補正から生じるバイアスとばらつきのトレードオフについて検討する。
論文 参考訳(メタデータ) (2022-09-22T20:33:05Z) - Benchopt: Reproducible, efficient and collaborative optimization
benchmarks [67.29240500171532]
Benchoptは、機械学習で最適化ベンチマークを自動化、再生、公開するためのフレームワークである。
Benchoptは実験を実行、共有、拡張するための既製のツールを提供することで、コミュニティのベンチマークを簡単にする。
論文 参考訳(メタデータ) (2022-06-27T16:19:24Z) - Variance-Optimal Augmentation Logging for Counterfactual Evaluation in
Contextual Bandits [25.153656462604268]
オフラインのA/Bテストと反ファクトラーニングの手法は、検索システムやレコメンデーションシステムに急速に採用されている。
これらの手法で一般的に使用される対物推定器は、ログポリシが評価対象のポリシーと大きく異なる場合、大きなバイアスと大きなばらつきを持つ可能性がある。
本稿では,下流評価や学習問題の分散を最小限に抑えるロギングポリシーを構築するための,MVAL(Minimum Variance Augmentation Logging)を提案する。
論文 参考訳(メタデータ) (2022-02-03T17:37:11Z) - Performance Evaluation of Adversarial Attacks: Discrepancies and
Solutions [51.8695223602729]
機械学習モデルの堅牢性に挑戦するために、敵対攻撃方法が開発されました。
本稿では,Piece-wise Sampling Curving(PSC)ツールキットを提案する。
psc toolkitは計算コストと評価効率のバランスをとるオプションを提供する。
論文 参考訳(メタデータ) (2021-04-22T14:36:51Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。