論文の概要: The challenge of reproducible ML: an empirical study on the impact of
bugs
- arxiv url: http://arxiv.org/abs/2109.03991v1
- Date: Thu, 9 Sep 2021 01:36:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 14:01:13.788355
- Title: The challenge of reproducible ML: an empirical study on the impact of
bugs
- Title(参考訳): 再現可能なmlの課題 : バグの影響に関する実証的研究
- Authors: Emilio Rivera-Landos, Foutse Khomh, Amin Nikanjam
- Abstract要約: 本稿では,機械学習システムにおける非決定性の原因となる基本的要因について述べる。
次にReproduceMLというフレームワークを導入し,実環境におけるML実験の決定論的評価を行う。
本研究では、人気のあるMLフレームワークであるPyTorchにおけるバグ発生が、トレーニングされたモデルの性能に与える影響を定量化する。
- 参考スコア(独自算出の注目度): 6.862925771672299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reproducibility is a crucial requirement in scientific research. When results
of research studies and scientific papers have been found difficult or
impossible to reproduce, we face a challenge which is called reproducibility
crisis. Although the demand for reproducibility in Machine Learning (ML) is
acknowledged in the literature, a main barrier is inherent non-determinism in
ML training and inference. In this paper, we establish the fundamental factors
that cause non-determinism in ML systems. A framework, ReproduceML, is then
introduced for deterministic evaluation of ML experiments in a real, controlled
environment. ReproduceML allows researchers to investigate software
configuration effects on ML training and inference. Using ReproduceML, we run a
case study: investigation of the impact of bugs inside ML libraries on
performance of ML experiments. This study attempts to quantify the impact that
the occurrence of bugs in a popular ML framework, PyTorch, has on the
performance of trained models. To do so, a comprehensive methodology is
proposed to collect buggy versions of ML libraries and run deterministic ML
experiments using ReproduceML. Our initial finding is that there is no evidence
based on our limited dataset to show that bugs which occurred in PyTorch do
affect the performance of trained models. The proposed methodology as well as
ReproduceML can be employed for further research on non-determinism and bugs.
- Abstract(参考訳): 再現性は科学研究において重要な要件である。
研究や科学論文の結果が再現が困難あるいは不可能であると判明すると、再現可能性危機と呼ばれる課題に直面する。
機械学習(ml)の再現性に対する要求は文献で認められているが、主な障壁はmlトレーニングと推論において固有の非決定性である。
本稿では,MLシステムにおける非決定性の原因となる基本因子について述べる。
次にReproduceMLというフレームワークを導入し,実環境におけるML実験の決定論的評価を行う。
ReproduceMLは、研究者がMLトレーニングと推論に対するソフトウェア構成の影響を調べることを可能にする。
ReproduceMLを使用したケーススタディ:MLライブラリ内のバグがML実験のパフォーマンスに与える影響を調べる。
本研究では、人気のあるMLフレームワークであるPyTorchにおけるバグ発生が、トレーニングされたモデルの性能に与える影響を定量化する。
そのため、MLライブラリのバグの多いバージョンを収集し、ReproduceMLを使用して決定論的ML実験を実行するための包括的な方法論が提案されている。
私たちの最初の発見は、PyTorchで発生したバグがトレーニングされたモデルのパフォーマンスに影響することを示す限られたデータセットに基づく証拠がないということです。
提案手法とReproduceMLは非決定性およびバグのさらなる研究に利用できる。
関連論文リスト
- Recent Advances on Machine Learning for Computational Fluid Dynamics: A Survey [51.87875066383221]
本稿では、基本概念、従来の手法、ベンチマークデータセットを紹介し、CFDを改善する上で機械学習が果たす様々な役割について検討する。
我々は,空気力学,燃焼,大気・海洋科学,生物流体,プラズマ,記号回帰,秩序の低減など,CFDにおけるMLの現実的な応用を強調した。
シミュレーションの精度を向上し、計算時間を短縮し、流体力学のより複雑な解析を可能にすることにより、MLはCFD研究を大きく変革する可能性があるという結論を導いた。
論文 参考訳(メタデータ) (2024-08-22T07:33:11Z) - Reproducibility in Machine Learning-based Research: Overview, Barriers and Drivers [1.4841630983274845]
様々な分野の研究は、現在結果の認識に関する課題を経験している。
この問題は、機械学習(ML)の研究でも広く用いられている。
MLによる研究のレベルは相変わらず不満足である。
論文 参考訳(メタデータ) (2024-06-20T13:56:42Z) - MLXP: A Framework for Conducting Replicable Experiments in Python [63.37350735954699]
MLXPはPythonをベースとした,オープンソースの,シンプルで,軽量な実験管理ツールである。
実験プロセスを最小限のオーバーヘッドで合理化し、高いレベルの実践的オーバーヘッドを確保します。
論文 参考訳(メタデータ) (2024-02-21T14:22:20Z) - Exploring Perceptual Limitation of Multimodal Large Language Models [57.567868157293994]
我々は、いくつかの最先端MLLMにおける小さな視覚物体の知覚を定量的に研究する。
この制限に寄与できる4つの独立した要因を特定します。
オブジェクトの品質が低く、オブジェクトサイズも小さいため、MLLMの視覚的質問に答える能力は独立して低下する。
論文 参考訳(メタデータ) (2024-02-12T03:04:42Z) - Are You Sure? Challenging LLMs Leads to Performance Drops in The
FlipFlop Experiment [82.60594940370919]
大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。
モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。
我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
論文 参考訳(メタデータ) (2023-11-14T23:40:22Z) - Julearn: an easy-to-use library for leakage-free evaluation and
inspection of ML models [0.23301643766310373]
我々は、Julearnの設計の背景にある理論的根拠と、その中核となる特徴を提示し、以前に公表された研究プロジェクトの3つの例を示す。
Julearnは、最も一般的なMLの落とし穴に対して、ガードを組み込んだ使いやすい環境を提供することで、機械学習の世界への参入を単純化することを目指している。
論文 参考訳(メタデータ) (2023-10-19T08:21:12Z) - Reproducibility in Machine Learning-Driven Research [1.7936835766396748]
研究は生存可能性の危機に直面しており、多くの研究の結果や発見は、再現することが困難または不可能である。
機械学習(ML)と人工知能(AI)の研究においても、これは同じである。
MLプラットフォームの使用などの研究コミュニティでは,この問題に対処するさまざまなソリューションが議論されているが,MLによる研究のレベルは大幅に上昇していない。
論文 参考訳(メタデータ) (2023-07-19T07:00:22Z) - Leakage and the Reproducibility Crisis in ML-based Science [5.116305213887073]
データ漏洩は確かに広範な問題であり、深刻な失敗につながっていることを示す。
教科書の誤りからオープンな研究問題まで,8種類の漏洩の詳細な分類法を提示する。
本稿では,MLモデルに基づく科学的主張を報告するためのモデル情報シートを提案する。
論文 参考訳(メタデータ) (2022-07-14T16:44:59Z) - Understanding the Usability Challenges of Machine Learning In
High-Stakes Decision Making [67.72855777115772]
機械学習(ML)は、多種多様な成長を続ける一連のドメインに適用されている。
多くの場合、MLやデータサイエンスの専門知識を持たないドメインの専門家は、ML予測を使用してハイステークな意思決定を行うように求められます。
児童福祉スクリーニングにおけるMLユーザビリティの課題について,児童福祉スクリーニング者との一連のコラボレーションを通じて検討する。
論文 参考訳(メタデータ) (2021-03-02T22:50:45Z) - Machine Learning Pipelines: Provenance, Reproducibility and FAIR Data
Principles [0.0]
マシンラーニングパイプラインのエンドツーエンドをサポートするための、私たちの目標と最初のステップについて説明します。
ソースコードとデータセットの可用性を超えて、どの要因がML実験に影響を与えるかを検討する。
ML実験にFAIRデータプラクティスを適用する方法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:17:34Z) - Localized Debiased Machine Learning: Efficient Inference on Quantile
Treatment Effects and Beyond [69.83813153444115]
因果推論における(局所)量子化処理効果((L)QTE)の効率的な推定式を検討する。
Debiased Machine Learning (DML)は、高次元のニュアンスを推定するデータ分割手法である。
本稿では、この負担のかかるステップを避けるために、局所的脱バイアス機械学習(LDML)を提案する。
論文 参考訳(メタデータ) (2019-12-30T14:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。