論文の概要: A Common Misassumption in Online Experiments with Machine Learning
Models
- arxiv url: http://arxiv.org/abs/2304.10900v1
- Date: Fri, 21 Apr 2023 11:36:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 14:51:59.945230
- Title: A Common Misassumption in Online Experiments with Machine Learning
Models
- Title(参考訳): 機械学習モデルを用いたオンライン実験におけるよくある誤解
- Authors: Olivier Jeunen
- Abstract要約: 変種は一般的にプールデータを使って学習するため、モデル干渉の欠如は保証できない、と我々は主張する。
実践者や研究文献に対する影響について論じる。
- 参考スコア(独自算出の注目度): 1.52292571922932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online experiments such as Randomised Controlled Trials (RCTs) or A/B-tests
are the bread and butter of modern platforms on the web. They are conducted
continuously to allow platforms to estimate the causal effect of replacing
system variant "A" with variant "B", on some metric of interest. These variants
can differ in many aspects. In this paper, we focus on the common use-case
where they correspond to machine learning models. The online experiment then
serves as the final arbiter to decide which model is superior, and should thus
be shipped.
The statistical literature on causal effect estimation from RCTs has a
substantial history, which contributes deservedly to the level of trust
researchers and practitioners have in this "gold standard" of evaluation
practices. Nevertheless, in the particular case of machine learning
experiments, we remark that certain critical issues remain. Specifically, the
assumptions that are required to ascertain that A/B-tests yield unbiased
estimates of the causal effect, are seldom met in practical applications. We
argue that, because variants typically learn using pooled data, a lack of model
interference cannot be guaranteed. This undermines the conclusions we can draw
from online experiments with machine learning models. We discuss the
implications this has for practitioners, and for the research literature.
- Abstract(参考訳): Randomized Controlled Trials (RCTs) や A/B-tests といったオンライン実験は、ウェブ上のモダンなプラットフォームのパンとバターである。
システムの変種「A」を変種「B」に置き換えることによる因果効果を、ある利害関係の指標で推定するために、連続的に実施される。
これらの変種は多くの点で異なる。
本稿では,機械学習モデルに対応する共通ユースケースに注目した。
オンライン実験は、どのモデルが優れているかを決定する最終的なアービターとして機能する。
RCTの因果効果推定に関する統計文献は、この「金の基準」評価の実践者が信頼する研究者や実践者のレベルにふさわしい、かなりの歴史を持っている。
それでも、機械学習実験の特定のケースでは、いくつかの重要な問題が残っている。
特に、A/Bテストが因果効果の偏りのない見積もりをもたらすことを確かめるために必要な仮定は、実際的な応用ではめったに満たされない。
変種は一般的にプールデータを使って学習するため、モデル干渉の欠如は保証できない、と我々は主張する。
これは、機械学習モデルによるオンライン実験から得られる結論を損なう。
このことが実践者や研究文献に与える影響について論じる。
関連論文リスト
- Investigating the Robustness of Counterfactual Learning to Rank Models: A Reproducibility Study [61.64685376882383]
ランク付け学習(CLTR: Counterfactual Learning to rank)は、IRコミュニティにおいて、ログ化された大量のユーザインタラクションデータを活用してランキングモデルをトレーニングする能力において、大きな注目を集めている。
本稿では,複雑かつ多様な状況における既存のCLTRモデルのロバスト性について検討する。
その結果, DLAモデルとIPS-DCMは, PS-PBMやPSSよりも, オフラインの確率推定による堅牢性が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-04T10:54:38Z) - Estimating Causal Effects with Double Machine Learning -- A Method Evaluation [5.904095466127043]
DML(Double/Debiased Machine Learning)の最も顕著な手法の1つについてレビューする。
この結果から, DML 内でのフレキシブルな機械学習アルゴリズムの適用により, 様々な非線形共起関係の調整が向上することが示唆された。
大気汚染が住宅価格に与える影響を推定すると、DMLの見積もりは柔軟性の低い方法の推定よりも一貫して大きいことが分かる。
論文 参考訳(メタデータ) (2024-03-21T13:21:33Z) - TESSERACT: Eliminating Experimental Bias in Malware Classification
across Space and Time (Extended Version) [18.146377453918724]
マルウェア検知器は、常に進化するオペレーティングシステムや攻撃方法によって、しばしば性能劣化を経験する。
本論文は, 検出作業における2つの実験バイアス源により, 一般的に報告される結果が膨らんでいることを論じる。
論文 参考訳(メタデータ) (2024-02-02T12:27:32Z) - Too Good To Be True: performance overestimation in (re)current practices
for Human Activity Recognition [49.1574468325115]
データセグメンテーションのためのスライディングウィンドウと、標準のランダムk倍のクロスバリデーションが続くと、バイアスのある結果が得られる。
この問題に対する科学界の認識を高めることは重要であり、その否定的な影響は見落とされつつある。
異なるタイプのデータセットと異なるタイプの分類モデルを用いたいくつかの実験により、問題を示し、メソッドやデータセットとは独立して持続することを示すことができる。
論文 参考訳(メタデータ) (2023-10-18T13:24:05Z) - Using Auxiliary Data to Boost Precision in the Analysis of A/B Tests on
an Online Educational Platform: New Data and New Results [1.5293427903448025]
A/Bテストでは、小さなサンプルであってもバイアスや正確な統計的推測を伴わずに因果効果を推定できる。
近年の方法論的な進歩は、設計に基づく因果推定と、実験に参加していない歴史的ユーザからのリッチログデータの機械学習モデルとの結合により、パワーと統計的精度が大幅に向上することを示してきた。
また,A/B試験試料の残余が非表現である場合においても,サブグループ効果を推定するためのゲインがさらに大きくなり,成層後個体群影響推定値にまで拡張できることが示唆された。
論文 参考訳(メタデータ) (2023-06-09T21:54:36Z) - Intervention Generalization: A View from Factor Graph Models [7.117681268784223]
操作されたシステムの分布の因子化に関する最小限の仮定に基づいて、過去の実験から新しい条件への飛躍をいかに保証するかを詳しく検討する。
仮定された$textitinterventional Factor Model$ (IFM) は必ずしも情報であるとは限らないが、不測のコンバウンディングとフィードバックのメカニズムを明示的にモデル化する必要性を便利に抽象化する。
論文 参考訳(メタデータ) (2023-06-06T21:44:23Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Dynamic Causal Effects Evaluation in A/B Testing with a Reinforcement
Learning Framework [68.96770035057716]
A/Bテスト(A/B Testing)は、新しい製品を製薬、技術、伝統産業の古い製品と比較するビジネス戦略である。
本稿では,オンライン実験においてA/Bテストを実施するための強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-05T10:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。