論文の概要: Leakage and the Reproducibility Crisis in ML-based Science
- arxiv url: http://arxiv.org/abs/2207.07048v1
- Date: Thu, 14 Jul 2022 16:44:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-15 13:02:33.107789
- Title: Leakage and the Reproducibility Crisis in ML-based Science
- Title(参考訳): ML科学における漏洩と再現性危機
- Authors: Sayash Kapoor, Arvind Narayanan
- Abstract要約: データ漏洩は確かに広範な問題であり、深刻な失敗につながっていることを示す。
教科書の誤りからオープンな研究問題まで,8種類の漏洩の詳細な分類法を提示する。
本稿では,MLモデルに基づく科学的主張を報告するためのモデル情報シートを提案する。
- 参考スコア(独自算出の注目度): 5.116305213887073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of machine learning (ML) methods for prediction and forecasting has
become widespread across the quantitative sciences. However, there are many
known methodological pitfalls, including data leakage, in ML-based science. In
this paper, we systematically investigate reproducibility issues in ML-based
science. We show that data leakage is indeed a widespread problem and has led
to severe reproducibility failures. Specifically, through a survey of
literature in research communities that adopted ML methods, we find 17 fields
where errors have been found, collectively affecting 329 papers and in some
cases leading to wildly overoptimistic conclusions. Based on our survey, we
present a fine-grained taxonomy of 8 types of leakage that range from textbook
errors to open research problems.
We argue for fundamental methodological changes to ML-based science so that
cases of leakage can be caught before publication. To that end, we propose
model info sheets for reporting scientific claims based on ML models that would
address all types of leakage identified in our survey. To investigate the
impact of reproducibility errors and the efficacy of model info sheets, we
undertake a reproducibility study in a field where complex ML models are
believed to vastly outperform older statistical models such as Logistic
Regression (LR): civil war prediction. We find that all papers claiming the
superior performance of complex ML models compared to LR models fail to
reproduce due to data leakage, and complex ML models don't perform
substantively better than decades-old LR models. While none of these errors
could have been caught by reading the papers, model info sheets would enable
the detection of leakage in each case.
- Abstract(参考訳): 予測と予測のための機械学習(ML)手法の利用は、定量的科学に広く浸透している。
しかしながら、mlベースの科学には、データ漏洩を含む多くの方法論的落とし穴がある。
本稿では,MLに基づく科学における再現性の問題について,体系的に検討する。
データ漏洩は確かに広範な問題であり、重大な再現性障害を引き起こしている。
具体的には、ML手法を採用した研究コミュニティにおける文献調査を通じて、誤りが見つかった17の分野が発見され、329の論文がまとめられ、場合によっては過度に最適化された結論が導かれる。
そこで本研究では,教科書の誤りからオープンリサーチ問題まで,8種類の漏洩の詳細な分類法を提案する。
我々は,MLに基づく科学の基本的な方法論的変化を論じ,漏洩事例を出版前に把握できるようにしている。
そこで本稿では,MLモデルに基づく科学的主張を報告するためのモデル情報シートを提案する。
再現性エラーとモデル情報シートの有効性について検討するため,複雑なMLモデルがロジスティック回帰(LR)のような古い統計モデルよりもはるかに優れていると考えられる分野において,再現性調査を行った。
複雑なMLモデルの性能をLRモデルと比較すると,データ漏洩による再現に失敗し,複雑なMLモデルは数十年前のLRモデルより実質上は良好に動作しないことがわかった。
いずれの誤りも論文を読むことで見つけられなかったが、モデルインフォメーションシートは各ケースの漏れを検出することができる。
関連論文リスト
- Discovery of the Hidden World with Large Language Models [100.38157787218044]
COAT: Causal representatiOn AssistanTについて紹介する。
COATは、非構造化データから潜在的な因果因子を抽出する因子プロジェクタとしてLLMを組み込んでいる。
LLMはデータ値の収集に使用される追加情報を提供するよう指示することもできる。
論文 参考訳(メタデータ) (2024-02-06T12:18:54Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Machine Learning Data Suitability and Performance Testing Using Fault
Injection Testing Framework [0.0]
本稿では,入力データ(FIUL-Data)テストフレームワークにおける望ましくない学習のためのフォールトインジェクションを提案する。
データミュータは、さまざまな障害注入の影響に対して、MLシステムの脆弱性を探索する。
本稿では, アンチセンスオリゴヌクレオチドの保持時間測定を含む分析化学データを用いて, フレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-09-20T12:58:35Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。
学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文 参考訳(メタデータ) (2023-04-07T08:50:18Z) - Information FOMO: The unhealthy fear of missing out on information. A
method for removing misleading data for healthier models [0.0]
本稿では,機械学習モデルを正確に学習するために必要なデータサイズを大幅に削減する手法を提案する。
本手法は,MLモデルを低次一般化特性に誤導するデータを無視・省略しながら,最も情報性の高いデータを抽出する。
特に、このメソッドは、データセットをトレーニング、テスト、バリデーションデータに分割する従来のニーズを自然に収束させ、取り除きます。
論文 参考訳(メタデータ) (2022-08-27T19:43:53Z) - Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文 参考訳(メタデータ) (2022-07-18T19:16:56Z) - The worst of both worlds: A comparative analysis of errors in learning
from data in psychology and machine learning [17.336655978572583]
機械学習(ML)が誤診や複製の危機に直面しているという最近の懸念は、ML研究で公表された主張の一部が対面価値で評価できないことを示唆している。
教師付きMLにおける研究の関心事は、実験科学における複製危機と共通している。
論文 参考訳(メタデータ) (2022-03-12T18:26:24Z) - The challenge of reproducible ML: an empirical study on the impact of
bugs [6.862925771672299]
本稿では,機械学習システムにおける非決定性の原因となる基本的要因について述べる。
次にReproduceMLというフレームワークを導入し,実環境におけるML実験の決定論的評価を行う。
本研究では、人気のあるMLフレームワークであるPyTorchにおけるバグ発生が、トレーニングされたモデルの性能に与える影響を定量化する。
論文 参考訳(メタデータ) (2021-09-09T01:36:39Z) - A Farewell to the Bias-Variance Tradeoff? An Overview of the Theory of
Overparameterized Machine Learning [37.01683478234978]
機械学習(ML)の急速な進歩は、この分野の長年のドグマに挑戦する科学的な疑問を数多く提起している。
最も重要なライドルの1つは、パラメータ化されたモデルの優れた経験的一般化である。
論文 参考訳(メタデータ) (2021-09-06T10:48:40Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。