Fugu-MT 論文翻訳(概要): Leakage and the Reproducibility Crisis in ML-based Science

論文の概要: Leakage and the Reproducibility Crisis in ML-based Science

arxiv url: http://arxiv.org/abs/2207.07048v1
Date: Thu, 14 Jul 2022 16:44:59 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-15 13:02:33.107789
Title: Leakage and the Reproducibility Crisis in ML-based Science
Title（参考訳）: ML科学における漏洩と再現性危機
Authors: Sayash Kapoor, Arvind Narayanan
Abstract要約: データ漏洩は確かに広範な問題であり、深刻な失敗につながっていることを示す。教科書の誤りからオープンな研究問題まで,8種類の漏洩の詳細な分類法を提示する。本稿では,MLモデルに基づく科学的主張を報告するためのモデル情報シートを提案する。
参考スコア（独自算出の注目度）: 5.116305213887073
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The use of machine learning (ML) methods for prediction and forecasting has become widespread across the quantitative sciences. However, there are many known methodological pitfalls, including data leakage, in ML-based science. In this paper, we systematically investigate reproducibility issues in ML-based science. We show that data leakage is indeed a widespread problem and has led to severe reproducibility failures. Specifically, through a survey of literature in research communities that adopted ML methods, we find 17 fields where errors have been found, collectively affecting 329 papers and in some cases leading to wildly overoptimistic conclusions. Based on our survey, we present a fine-grained taxonomy of 8 types of leakage that range from textbook errors to open research problems. We argue for fundamental methodological changes to ML-based science so that cases of leakage can be caught before publication. To that end, we propose model info sheets for reporting scientific claims based on ML models that would address all types of leakage identified in our survey. To investigate the impact of reproducibility errors and the efficacy of model info sheets, we undertake a reproducibility study in a field where complex ML models are believed to vastly outperform older statistical models such as Logistic Regression (LR): civil war prediction. We find that all papers claiming the superior performance of complex ML models compared to LR models fail to reproduce due to data leakage, and complex ML models don't perform substantively better than decades-old LR models. While none of these errors could have been caught by reading the papers, model info sheets would enable the detection of leakage in each case.
Abstract（参考訳）: 予測と予測のための機械学習(ML)手法の利用は、定量的科学に広く浸透している。しかしながら、mlベースの科学には、データ漏洩を含む多くの方法論的落とし穴がある。本稿では,MLに基づく科学における再現性の問題について,体系的に検討する。データ漏洩は確かに広範な問題であり、重大な再現性障害を引き起こしている。具体的には、ML手法を採用した研究コミュニティにおける文献調査を通じて、誤りが見つかった17の分野が発見され、329の論文がまとめられ、場合によっては過度に最適化された結論が導かれる。そこで本研究では,教科書の誤りからオープンリサーチ問題まで,8種類の漏洩の詳細な分類法を提案する。我々は,MLに基づく科学の基本的な方法論的変化を論じ,漏洩事例を出版前に把握できるようにしている。そこで本稿では,MLモデルに基づく科学的主張を報告するためのモデル情報シートを提案する。再現性エラーとモデル情報シートの有効性について検討するため,複雑なMLモデルがロジスティック回帰(LR)のような古い統計モデルよりもはるかに優れていると考えられる分野において,再現性調査を行った。複雑なMLモデルの性能をLRモデルと比較すると,データ漏洩による再現に失敗し,複雑なMLモデルは数十年前のLRモデルより実質上は良好に動作しないことがわかった。いずれの誤りも論文を読むことで見つけられなかったが、モデルインフォメーションシートは各ケースの漏れを検出することができる。

関連論文リスト

Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文参考訳（メタデータ） (2025-02-03T17:13:03Z)
Analysis of Zero Day Attack Detection Using MLP and XAI [0.0]
本稿では、侵入検知システム(IDS)を構築するための機械学習(ML)とディープラーニング(DL)に基づくアプローチについて分析する。 KDD99データセットは、ゼロデイ攻撃を検出するために、すべてのデータセットの中で最も研究されている。ベースラインMLモデル,重み付きMLモデル,重み付きMLモデル,重み付きMLモデルを含む,KDD99データセット上でトレーニングされた4層パーセプトロン(MLP)の性能を評価する。
論文参考訳（メタデータ） (2025-01-28T02:20:34Z)
Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework [64.83955753606443]
数学の単語問題は、大規模言語モデルの推論能力を評価するための重要なベンチマークとなる。現在のエラー分類法は静的および事前定義されたカテゴリに依存している。 MWPES-300Kは,304,865個のエラーサンプルを含む包括的データセットである。
論文参考訳（メタデータ） (2025-01-26T16:17:57Z)
Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文参考訳（メタデータ） (2024-06-05T20:19:09Z)
Missci: Reconstructing Fallacies in Misrepresented Science [84.32990746227385]
ソーシャルネットワーク上の健康関連の誤報は、意思決定の貧弱さと現実世界の危険につながる可能性がある。ミスシは、誤った推論のための新しい議論理論モデルである。大規模言語モデルの批判的推論能力をテストするためのデータセットとしてMissciを提案する。
論文参考訳（メタデータ） (2024-06-05T12:11:10Z)
Unraveling overoptimism and publication bias in ML-driven science [14.38643099447636]
最近の研究では、機械学習モデルのパフォーマンスが過度に最適化されていることが示唆されている。本稿では,パラメトリック学習曲線と前述のバイアスを統合することで,観測精度の新たなモデルを提案する。神経学的条件の分類のメタ分析にモデルを適用し、各領域におけるMLに基づく予測の固有の限界を推定する。
論文参考訳（メタデータ） (2024-05-23T10:43:20Z)
PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transition Dynamics [51.17512229589]
PoLLMgraphは、大規模言語モデルのためのモデルベースのホワイトボックス検出および予測手法である。 LLMの内部状態遷移ダイナミクスを解析することにより,幻覚を効果的に検出できることを示す。我々の研究は、LLMのモデルベースのホワイトボックス分析の新しい手法を開拓し、LLMの振る舞いの複雑なダイナミクスをさらに探求し、理解し、洗練する研究コミュニティを動機付けている。
論文参考訳（メタデータ） (2024-04-06T20:02:20Z)
How Much are Large Language Models Contaminated? A Comprehensive Survey and the LLMSanitize Library [68.10605098856087]
大規模言語モデル(LLM)は、ビジネスアプリケーションやAIの資金調達でますます利用されている。 LLMの性能は、データへの以前の露出のために、少なくとも部分的には高性能である可能性があるため、もはや信頼性が低い可能性がある。我々はLLMSanitizeというオープンソースのPythonライブラリをリリースし、主要な汚染検知アルゴリズムを実装した。
論文参考訳（メタデータ） (2024-03-31T14:32:02Z)
Machine Learning Data Suitability and Performance Testing Using Fault Injection Testing Framework [0.0]
本稿では,入力データ(FIUL-Data)テストフレームワークにおける望ましくない学習のためのフォールトインジェクションを提案する。データミュータは、さまざまな障害注入の影響に対して、MLシステムの脆弱性を探索する。本稿では, アンチセンスオリゴヌクレオチドの保持時間測定を含む分析化学データを用いて, フレームワークの評価を行った。
論文参考訳（メタデータ） (2023-09-20T12:58:35Z)
AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文参考訳（メタデータ） (2023-04-07T08:50:18Z)
Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文参考訳（メタデータ） (2022-07-18T19:16:56Z)
The worst of both worlds: A comparative analysis of errors in learning from data in psychology and machine learning [17.336655978572583]
機械学習(ML)が誤診や複製の危機に直面しているという最近の懸念は、ML研究で公表された主張の一部が対面価値で評価できないことを示唆している。教師付きMLにおける研究の関心事は、実験科学における複製危機と共通している。
論文参考訳（メタデータ） (2022-03-12T18:26:24Z)
The challenge of reproducible ML: an empirical study on the impact of bugs [6.862925771672299]
本稿では,機械学習システムにおける非決定性の原因となる基本的要因について述べる。次にReproduceMLというフレームワークを導入し,実環境におけるML実験の決定論的評価を行う。本研究では、人気のあるMLフレームワークであるPyTorchにおけるバグ発生が、トレーニングされたモデルの性能に与える影響を定量化する。
論文参考訳（メタデータ） (2021-09-09T01:36:39Z)
A Farewell to the Bias-Variance Tradeoff? An Overview of the Theory of Overparameterized Machine Learning [37.01683478234978]
機械学習(ML)の急速な進歩は、この分野の長年のドグマに挑戦する科学的な疑問を数多く提起している。最も重要なライドルの1つは、パラメータ化されたモデルの優れた経験的一般化である。
論文参考訳（メタデータ） (2021-09-06T10:48:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。