論文の概要: Designing Time Series Experiments in A/B Testing with Transformer Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.01853v1
- Date: Mon, 02 Feb 2026 09:27:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.040397
- Title: Designing Time Series Experiments in A/B Testing with Transformer Reinforcement Learning
- Title(参考訳): 変圧器強化学習を用いたA/Bテストにおける時系列実験の設計
- Authors: Xiangkun Wu, Qianglin Wen, Yingying Zhang, Hongtu Zhu, Ting Li, Chengchun Shi,
- Abstract要約: A/Bテストは、近代技術企業が政策評価を行うための金の標準となっている。
しかし、時間とともにポリシーが順番に割り当てられる時系列実験への応用は、依然として困難である。
既存の設計には2つの制限がある: (i) 治療の割り当てに履歴全体を十分に活用していない; (ii) 目的関数を近似するために強い仮定に依存している。
まず、時系列実験における動的依存関係のため、完全履歴の条件付けの失敗が最適でない設計に繋がることを示す不合理性定理を定めている。
- 参考スコア(独自算出の注目度): 28.08116749188554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A/B testing has become a gold standard for modern technological companies to conduct policy evaluation. Yet, its application to time series experiments, where policies are sequentially assigned over time, remains challenging. Existing designs suffer from two limitations: (i) they do not fully leverage the entire history for treatment allocation; (ii) they rely on strong assumptions to approximate the objective function (e.g., the mean squared error of the estimated treatment effect) for optimizing the design. We first establish an impossibility theorem showing that failure to condition on the full history leads to suboptimal designs, due to the dynamic dependencies in time series experiments. To address both limitations simultaneously, we next propose a transformer reinforcement learning (RL) approach which leverages transformers to condition allocation on the entire history and employs RL to directly optimize the MSE without relying on restrictive assumptions. Empirical evaluations on synthetic data, a publicly available dispatch simulator, and a real-world ridesharing dataset demonstrate that our proposal consistently outperforms existing designs.
- Abstract(参考訳): A/Bテストは、近代技術企業が政策評価を行うための金の標準となっている。
しかし、時間とともにポリシーが順番に割り当てられる時系列実験への応用は、依然として困難である。
既存のデザインには2つの制限がある。
一 治療の割り当てに履歴全体を十分に活用していないこと。
(II) 設計を最適化する目的関数(例えば、推定処理効果の平均2乗誤差)を近似するために強い仮定に依存する。
まず、時系列実験における動的依存関係のため、完全履歴の条件付けの失敗が最適でない設計に繋がることを示す不合理性定理を定めている。
両制約を同時に扱うために, トランスフォーマーを用いたコンディションアロケーションを歴史全体に適用し, 制約的仮定に頼ることなく, 直接最適化するトランスフォーマー強化学習(RL)手法を提案する。
合成データ、公開ディスパッチシミュレータ、実世界のライドシェアリングデータセットに関する実証的な評価は、我々の提案が既存の設計を一貫して上回っていることを示している。
関連論文リスト
- In-Context Reinforcement Learning From Suboptimal Historical Data [56.60512975858003]
トランスフォーマーモデルは、主にコンテキスト内学習能力によって、目覚ましい経験的成功を収めた。
本稿では,アクタ・クリティカルなアルゴリズムを文脈内でエミュレートする決定重要度変換フレームワークを提案する。
以上の結果から,特にオフラインデータセットが最適な履歴データを含む場合,DITは優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2026-01-27T23:13:06Z) - Forecasting in Offline Reinforcement Learning for Non-stationary Environments [23.889016600249295]
条件拡散に基づく候補状態生成を統一するフレームワークであるNon-stationary Offline RL (FORL) にフォアキャスティングを導入する。
FORLは予期せぬ非マルコフオフセットをターゲットとし、各エピソードの開始から堅牢なエージェントパフォーマンスを必要とする。
実世界の時系列データで拡張されたオフラインRLベンチマークの実証的な評価は、FOLが競合するベースラインに比べて一貫してパフォーマンスを改善することを示した。
論文 参考訳(メタデータ) (2025-12-01T18:45:05Z) - ProCause: Generating Counterfactual Outcomes to Evaluate Prescriptive Process Monitoring Methods [2.4010681808413397]
Prescriptive Process Monitoring (PresPM)は、イベントログデータに基づいたリアルタイム介入によるプロセスを最適化することに焦点を当てている。
PresPMメソッドの評価は、データセット内のすべての介入アクションに対して、基調的な結果が欠如しているため、難しい。
ProCauseはシーケンシャルモデルと非シーケンシャルモデルの両方をサポートするジェネレーティブアプローチである。
論文 参考訳(メタデータ) (2025-08-31T10:54:43Z) - Prediction-Powered Causal Inferences [59.98498488132307]
予測型因果推論(PPCI)に焦点をあてる
まず, 条件付きキャリブレーションにより, 人口レベルでの有効なPPCIが保証されることを示す。
次に、実験間での十分な表現制約伝達の妥当性を導入する。
論文 参考訳(メタデータ) (2025-02-10T10:52:17Z) - On Mesa-Optimization in Autoregressively Trained Transformers: Emergence and Capability [34.43255978863601]
いくつかの説では、トランスフォーマーはオートレアトレーニング中にmesa-optimizerを学習する。
データモーメントに関する強い仮定は、学習されたメザ最適化器が実行可能な十分な必要条件であることを示す。
論文 参考訳(メタデータ) (2024-05-27T05:41:06Z) - Latent Plan Transformer for Trajectory Abstraction: Planning as Latent Space Inference [53.419249906014194]
オフライン強化学習から得られたデータセットを用いた計画のための生成モデルについて検討する。
本稿では,Transformerベースのトラジェクトリジェネレータと最終戻り値との接続に潜時変数を利用する新しいモデルであるLatent Plan Transformerを紹介する。
論文 参考訳(メタデータ) (2024-02-07T08:18:09Z) - DELTA: degradation-free fully test-time adaptation [59.74287982885375]
テスト時間バッチ正規化(BN)や自己学習といった,一般的な適応手法では,2つの好ましくない欠陥が隠されていることがわかった。
まず、テスト時間BNにおける正規化統計は、現在受信されているテストサンプルに完全に影響され、その結果、不正確な推定結果が得られることを明らかにする。
第二に、テスト時間適応中にパラメータ更新が支配的なクラスに偏っていることを示す。
論文 参考訳(メタデータ) (2023-01-30T15:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。