Fugu-MT 論文翻訳(概要): A Common Misassumption in Online Experiments with Machine Learning Models

論文の概要: A Common Misassumption in Online Experiments with Machine Learning Models

arxiv url: http://arxiv.org/abs/2304.10900v1
Date: Fri, 21 Apr 2023 11:36:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-24 14:51:59.945230
Title: A Common Misassumption in Online Experiments with Machine Learning Models
Title（参考訳）: 機械学習モデルを用いたオンライン実験におけるよくある誤解
Authors: Olivier Jeunen
Abstract要約: 変種は一般的にプールデータを使って学習するため、モデル干渉の欠如は保証できない、と我々は主張する。実践者や研究文献に対する影響について論じる。
参考スコア（独自算出の注目度）: 1.52292571922932
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Online experiments such as Randomised Controlled Trials (RCTs) or A/B-tests are the bread and butter of modern platforms on the web. They are conducted continuously to allow platforms to estimate the causal effect of replacing system variant "A" with variant "B", on some metric of interest. These variants can differ in many aspects. In this paper, we focus on the common use-case where they correspond to machine learning models. The online experiment then serves as the final arbiter to decide which model is superior, and should thus be shipped. The statistical literature on causal effect estimation from RCTs has a substantial history, which contributes deservedly to the level of trust researchers and practitioners have in this "gold standard" of evaluation practices. Nevertheless, in the particular case of machine learning experiments, we remark that certain critical issues remain. Specifically, the assumptions that are required to ascertain that A/B-tests yield unbiased estimates of the causal effect, are seldom met in practical applications. We argue that, because variants typically learn using pooled data, a lack of model interference cannot be guaranteed. This undermines the conclusions we can draw from online experiments with machine learning models. We discuss the implications this has for practitioners, and for the research literature.
Abstract（参考訳）: Randomized Controlled Trials (RCTs) や A/B-tests といったオンライン実験は、ウェブ上のモダンなプラットフォームのパンとバターである。システムの変種「A」を変種「B」に置き換えることによる因果効果を、ある利害関係の指標で推定するために、連続的に実施される。これらの変種は多くの点で異なる。本稿では,機械学習モデルに対応する共通ユースケースに注目した。オンライン実験は、どのモデルが優れているかを決定する最終的なアービターとして機能する。 RCTの因果効果推定に関する統計文献は、この「金の基準」評価の実践者が信頼する研究者や実践者のレベルにふさわしい、かなりの歴史を持っている。それでも、機械学習実験の特定のケースでは、いくつかの重要な問題が残っている。特に、A/Bテストが因果効果の偏りのない見積もりをもたらすことを確かめるために必要な仮定は、実際的な応用ではめったに満たされない。変種は一般的にプールデータを使って学習するため、モデル干渉の欠如は保証できない、と我々は主張する。これは、機械学習モデルによるオンライン実験から得られる結論を損なう。このことが実践者や研究文献に与える影響について論じる。

関連論文リスト

Post Launch Evaluation of Policies in a High-Dimensional Setting [4.710921988115686]
A/Bテスト(A/B test)またはランダム化制御実験(RCTs)は、新しいポリシー、製品、決定の影響を評価するための金の標準である。本稿では「合成制御」にインスパイアされた方法論の適用に関する実践的考察を考察する。合成制御法は、影響を受けていない単位からのデータを利用して、処理された単位に対する対実的な結果を推定する。
論文参考訳（メタデータ） (2024-12-30T19:35:29Z)
Investigating the Robustness of Counterfactual Learning to Rank Models: A Reproducibility Study [61.64685376882383]
ランク付け学習(CLTR: Counterfactual Learning to rank)は、IRコミュニティにおいて、ログ化された大量のユーザインタラクションデータを活用してランキングモデルをトレーニングする能力において、大きな注目を集めている。本稿では,複雑かつ多様な状況における既存のCLTRモデルのロバスト性について検討する。その結果, DLAモデルとIPS-DCMは, PS-PBMやPSSよりも, オフラインの確率推定による堅牢性が高いことがわかった。
論文参考訳（メタデータ） (2024-04-04T10:54:38Z)
Estimating Causal Effects with Double Machine Learning -- A Method Evaluation [5.904095466127043]
DML(Double/Debiased Machine Learning)の最も顕著な手法の1つについてレビューする。この結果から, DML 内でのフレキシブルな機械学習アルゴリズムの適用により, 様々な非線形共起関係の調整が向上することが示唆された。大気汚染が住宅価格に与える影響を推定すると、DMLの見積もりは柔軟性の低い方法の推定よりも一貫して大きいことが分かる。
論文参考訳（メタデータ） (2024-03-21T13:21:33Z)
TESSERACT: Eliminating Experimental Bias in Malware Classification across Space and Time (Extended Version) [18.146377453918724]
マルウェア検知器は、常に進化するオペレーティングシステムや攻撃方法によって、しばしば性能劣化を経験する。本論文は, 検出作業における2つの実験バイアス源により, 一般的に報告される結果が膨らんでいることを論じる。
論文参考訳（メタデータ） (2024-02-02T12:27:32Z)
Too Good To Be True: performance overestimation in (re)current practices for Human Activity Recognition [49.1574468325115]
データセグメンテーションのためのスライディングウィンドウと、標準のランダムk倍のクロスバリデーションが続くと、バイアスのある結果が得られる。この問題に対する科学界の認識を高めることは重要であり、その否定的な影響は見落とされつつある。異なるタイプのデータセットと異なるタイプの分類モデルを用いたいくつかの実験により、問題を示し、メソッドやデータセットとは独立して持続することを示すことができる。
論文参考訳（メタデータ） (2023-10-18T13:24:05Z)
Using Auxiliary Data to Boost Precision in the Analysis of A/B Tests on an Online Educational Platform: New Data and New Results [1.5293427903448025]
A/Bテストでは、小さなサンプルであってもバイアスや正確な統計的推測を伴わずに因果効果を推定できる。近年の方法論的な進歩は、設計に基づく因果推定と、実験に参加していない歴史的ユーザからのリッチログデータの機械学習モデルとの結合により、パワーと統計的精度が大幅に向上することを示してきた。また,A/B試験試料の残余が非表現である場合においても,サブグループ効果を推定するためのゲインがさらに大きくなり,成層後個体群影響推定値にまで拡張できることが示唆された。
論文参考訳（メタデータ） (2023-06-09T21:54:36Z)
Intervention Generalization: A View from Factor Graph Models [7.117681268784223]
操作されたシステムの分布の因子化に関する最小限の仮定に基づいて、過去の実験から新しい条件への飛躍をいかに保証するかを詳しく検討する。仮定された$textitinterventional Factor Model$ (IFM) は必ずしも情報であるとは限らないが、不測のコンバウンディングとフィードバックのメカニズムを明示的にモデル化する必要性を便利に抽象化する。
論文参考訳（メタデータ） (2023-06-06T21:44:23Z)
In Search of Insights, Not Magic Bullets: Towards Demystification of the Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文参考訳（メタデータ） (2023-02-06T16:55:37Z)
Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文参考訳（メタデータ） (2022-10-17T05:40:13Z)
ALT-MAS: A Data-Efficient Framework for Active Testing of Machine Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文参考訳（メタデータ） (2021-04-11T12:14:04Z)
Dynamic Causal Effects Evaluation in A/B Testing with a Reinforcement Learning Framework [68.96770035057716]
A/Bテスト(A/B Testing)は、新しい製品を製薬、技術、伝統産業の古い製品と比較するビジネス戦略である。本稿では,オンライン実験においてA/Bテストを実施するための強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2020-02-05T10:25:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。