論文の概要: What Causes Exceptions in Machine Learning Applications? Mining Machine
Learning-Related Stack Traces on Stack Overflow
- arxiv url: http://arxiv.org/abs/2304.12857v1
- Date: Tue, 25 Apr 2023 14:29:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 20:25:36.649055
- Title: What Causes Exceptions in Machine Learning Applications? Mining Machine
Learning-Related Stack Traces on Stack Overflow
- Title(参考訳): 機械学習アプリケーションにおける例外の原因は何か?
stack overflowにおける機械学習関連スタックトレースのマイニング
- Authors: Amin Ghadesi, and Maxime Lamothe, and Heng Li
- Abstract要約: Stack Overflow上で7つの人気のあるPython MLライブラリに関連する11,449のスタックトレースを調査した。
スタックトレースを含むML質問は、スタックトレースのない質問よりも人気がある。
サブプロセス呼び出し、外部モジュール実行、リモートAPI呼び出しに関連するパターンは、受け入れられる可能性が低い。
- 参考スコア(独自算出の注目度): 6.09414932258309
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Machine learning (ML), including deep learning, has recently gained
tremendous popularity in a wide range of applications. However, like
traditional software, ML applications are not immune to the bugs that result
from programming errors. Explicit programming errors usually manifest through
error messages and stack traces. These stack traces describe the chain of
function calls that lead to an anomalous situation, or exception. Indeed, these
exceptions may cross the entire software stack (including applications and
libraries). Thus, studying the patterns in stack traces can help practitioners
and researchers understand the causes of exceptions in ML applications and the
challenges faced by ML developers. To that end, we mine Stack Overflow (SO) and
study 11,449 stack traces related to seven popular Python ML libraries. First,
we observe that ML questions that contain stack traces gain more popularity
than questions without stack traces; however, they are less likely to get
accepted answers. Second, we observe that recurrent patterns exists in ML stack
traces, even across different ML libraries, with a small portion of patterns
covering many stack traces. Third, we derive five high-level categories and 25
low-level types from the stack trace patterns: most patterns are related to
python basic syntax, model training, parallelization, data transformation, and
subprocess invocation. Furthermore, the patterns related to subprocess
invocation, external module execution, and remote API call are among the least
likely to get accepted answers on SO. Our findings provide insights for
researchers, ML library providers, and ML application developers to improve the
quality of ML libraries and their applications.
- Abstract(参考訳): ディープラーニングを含む機械学習(ML)は、最近、広範囲のアプリケーションで大きな人気を集めている。
しかし、従来のソフトウェアと同様に、MLアプリケーションはプログラミングエラーに起因するバグに免疫がない。
明示的なプログラミングエラーは通常、エラーメッセージとスタックトレースを通じて現れる。
これらのスタックトレースは、異常な状況や例外につながる関数呼び出しの連鎖を記述する。
実際、これらの例外はソフトウェアスタック全体(アプリケーションやライブラリを含む)にまたがる可能性がある。
したがって、スタックトレースのパターンを研究することは、実践者や研究者がMLアプリケーションにおける例外の原因と、ML開発者が直面する課題を理解するのに役立つ。
そのために、Stack Overflow (SO)をマイニングし、7つの人気のあるPython MLライブラリに関連する11,449のスタックトレースを調査しました。
まず,スタックトレースを含むML質問は,スタックトレースのない質問よりも人気が高いが,回答が受け入れられる可能性は低い。
第2に,mlスタックトレースに繰り返し発生するパターンは,さまざまなmlライブラリにわたっても存在し,多数のスタックトレースをカバーするパターンはごく一部である。
第3に、スタックトレースパターンから5つの高レベルカテゴリと25の低レベルタイプを導出します。ほとんどのパターンは、ピソンの基本構文、モデルのトレーニング、並列化、データ変換、サブプロセスの実行と関連しています。
さらに、サブプロセス呼び出し、外部モジュール実行、リモートAPI呼び出しに関連するパターンは、SOで受け入れられる可能性が最も低い。
この結果から,研究者,MLライブラリプロバイダ,およびMLアプリケーション開発者に,MLライブラリとそのアプリケーションの品質向上に関する知見が得られた。
関連論文リスト
- KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution [59.20933707301566]
大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。
現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。
このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
論文 参考訳(メタデータ) (2024-07-02T21:44:22Z) - TESTEVAL: Benchmarking Large Language Models for Test Case Generation [15.343859279282848]
大規模言語モデル(LLM)を用いたテストケース生成のための新しいベンチマークであるTESTEVALを提案する。
オンラインプログラミングプラットフォームLeetCodeから210のPythonプログラムを収集し、全体的なカバレッジ、ターゲットライン/ブランチカバレッジ、ターゲットパスカバレッジという3つの異なるタスクを設計します。
特定のプログラム行/ブランチ/パスをカバーするテストケースを生成することは、現在のLLMでは依然として困難である。
論文 参考訳(メタデータ) (2024-06-06T22:07:50Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z) - What are the Machine Learning best practices reported by practitioners
on Stack Exchange? [4.882319198853359]
127の機械学習ベストプラクティスを14のStack Exchange(STE)ウェブサイトから242のポストを体系的にマイニングする。
プラクティスのリストは、ML対応システムの実装プロセスの異なる段階に関連するカテゴリのセットで示されます。
論文 参考訳(メタデータ) (2023-01-25T10:50:28Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z) - Comparative analysis of real bugs in open-source Machine Learning
projects -- A Registered Report [5.275804627373337]
機械学習と非機械学習の課題の解決時間分布に差があるかどうかを検討する。
制御されたサンプル上で,MLおよび非ML問題の修正の解像度時間とサイズを測定し,各カテゴリの分布を比較した。
論文 参考訳(メタデータ) (2022-09-20T18:12:12Z) - Bugs in Machine Learning-based Systems: A Faultload Benchmark [16.956588187947993]
パフォーマンスを評価し、比較し、利点と弱点について議論する標準のバグベンチマークはありません。
本研究では,MLベースのシステムにおけるバグの妥当性をまず検証し,各システムにおいて最も重要な要因を示す。
標準ベンチマークのすべての基準、すなわち妥当性、公正性、妥当性、ユーザビリティを満足するベンチマークであるdele4MLを提供する。
論文 参考訳(メタデータ) (2022-06-24T14:20:34Z) - Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。
我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-06-04T22:01:05Z) - OmniXAI: A Library for Explainable AI [98.07381528393245]
eXplainable AI(XAI)のオープンソースPythonライブラリであるOmniXAIを紹介する。
オールニウェイで説明可能なAI機能と、さまざまな解釈可能な機械学習技術を提供する。
実践者にとってこのライブラリは、アプリケーションの説明を生成するために、使いやすく統合されたインターフェースを提供する。
論文 参考訳(メタデータ) (2022-06-01T11:35:37Z) - The Prevalence of Code Smells in Machine Learning projects [9.722159563454436]
静的コード解析は、ソースコードの潜在的な欠陥、機会、共通のコーディング標準の違反を見つけるのに使うことができる。
74のオープンソースプロジェクトのデータセットを集め、依存関係をインストールしてPylintを実行しました。
その結果、検出されたすべてのコードの臭いのトップ20に到達した。
論文 参考訳(メタデータ) (2021-03-06T16:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。