Fugu-MT 論文翻訳(概要): What Causes Exceptions in Machine Learning Applications? Mining Machine Learning-Related Stack Traces on Stack Overflow

論文の概要: What Causes Exceptions in Machine Learning Applications? Mining Machine Learning-Related Stack Traces on Stack Overflow

arxiv url: http://arxiv.org/abs/2304.12857v1
Date: Tue, 25 Apr 2023 14:29:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-26 20:25:36.649055
Title: What Causes Exceptions in Machine Learning Applications? Mining Machine Learning-Related Stack Traces on Stack Overflow
Title（参考訳）: 機械学習アプリケーションにおける例外の原因は何か? stack overflowにおける機械学習関連スタックトレースのマイニング
Authors: Amin Ghadesi, and Maxime Lamothe, and Heng Li
Abstract要約: Stack Overflow上で7つの人気のあるPython MLライブラリに関連する11,449のスタックトレースを調査した。スタックトレースを含むML質問は、スタックトレースのない質問よりも人気がある。サブプロセス呼び出し、外部モジュール実行、リモートAPI呼び出しに関連するパターンは、受け入れられる可能性が低い。
参考スコア（独自算出の注目度）: 6.09414932258309
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Machine learning (ML), including deep learning, has recently gained tremendous popularity in a wide range of applications. However, like traditional software, ML applications are not immune to the bugs that result from programming errors. Explicit programming errors usually manifest through error messages and stack traces. These stack traces describe the chain of function calls that lead to an anomalous situation, or exception. Indeed, these exceptions may cross the entire software stack (including applications and libraries). Thus, studying the patterns in stack traces can help practitioners and researchers understand the causes of exceptions in ML applications and the challenges faced by ML developers. To that end, we mine Stack Overflow (SO) and study 11,449 stack traces related to seven popular Python ML libraries. First, we observe that ML questions that contain stack traces gain more popularity than questions without stack traces; however, they are less likely to get accepted answers. Second, we observe that recurrent patterns exists in ML stack traces, even across different ML libraries, with a small portion of patterns covering many stack traces. Third, we derive five high-level categories and 25 low-level types from the stack trace patterns: most patterns are related to python basic syntax, model training, parallelization, data transformation, and subprocess invocation. Furthermore, the patterns related to subprocess invocation, external module execution, and remote API call are among the least likely to get accepted answers on SO. Our findings provide insights for researchers, ML library providers, and ML application developers to improve the quality of ML libraries and their applications.
Abstract（参考訳）: ディープラーニングを含む機械学習(ML)は、最近、広範囲のアプリケーションで大きな人気を集めている。しかし、従来のソフトウェアと同様に、MLアプリケーションはプログラミングエラーに起因するバグに免疫がない。明示的なプログラミングエラーは通常、エラーメッセージとスタックトレースを通じて現れる。これらのスタックトレースは、異常な状況や例外につながる関数呼び出しの連鎖を記述する。実際、これらの例外はソフトウェアスタック全体(アプリケーションやライブラリを含む)にまたがる可能性がある。したがって、スタックトレースのパターンを研究することは、実践者や研究者がMLアプリケーションにおける例外の原因と、ML開発者が直面する課題を理解するのに役立つ。そのために、Stack Overflow (SO)をマイニングし、7つの人気のあるPython MLライブラリに関連する11,449のスタックトレースを調査しました。まず,スタックトレースを含むML質問は,スタックトレースのない質問よりも人気が高いが,回答が受け入れられる可能性は低い。第2に,mlスタックトレースに繰り返し発生するパターンは,さまざまなmlライブラリにわたっても存在し,多数のスタックトレースをカバーするパターンはごく一部である。第3に、スタックトレースパターンから5つの高レベルカテゴリと25の低レベルタイプを導出します。ほとんどのパターンは、ピソンの基本構文、モデルのトレーニング、並列化、データ変換、サブプロセスの実行と関連しています。さらに、サブプロセス呼び出し、外部モジュール実行、リモートAPI呼び出しに関連するパターンは、SOで受け入れられる可能性が最も低い。この結果から,研究者,MLライブラリプロバイダ,およびMLアプリケーション開発者に,MLライブラリとそのアプリケーションの品質向上に関する知見が得られた。

関連論文リスト

Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文参考訳（メタデータ） (2025-07-21T17:30:16Z)
Your Fix Is My Exploit: Enabling Comprehensive DL Library API Fuzzing with Large Language Models [49.214291813478695]
AIアプリケーションで広く使用されているディープラーニング(DL)ライブラリは、オーバーフローやバッファフリーエラーなどの脆弱性を含むことが多い。従来のファジィングはDLライブラリの複雑さとAPIの多様性に悩まされている。 DLライブラリのためのLLM駆動ファジィ手法であるDFUZZを提案する。
論文参考訳（メタデータ） (2025-01-08T07:07:22Z)
ExploraCoder: Advancing code generation for multiple unseen APIs via planning and chained exploration [70.26807758443675]
ExploraCoderはトレーニング不要のフレームワークで、大規模な言語モデルにコードソリューションで見えないAPIを呼び出す権限を与える。 ExploraCoderは,事前のAPI知識を欠いたモデルのパフォーマンスを著しく向上させ,NAGアプローチの11.24%,pass@10の事前トレーニングメソッドの14.07%を絶対的に向上させることを示す。
論文参考訳（メタデータ） (2024-12-06T19:00:15Z)
KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution [59.20933707301566]
大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
論文参考訳（メタデータ） (2024-07-02T21:44:22Z)
TESTEVAL: Benchmarking Large Language Models for Test Case Generation [15.343859279282848]
大規模言語モデル(LLM)を用いたテストケース生成のための新しいベンチマークであるTESTEVALを提案する。オンラインプログラミングプラットフォームLeetCodeから210のPythonプログラムを収集し、全体的なカバレッジ、ターゲットライン/ブランチカバレッジ、ターゲットパスカバレッジという3つの異なるタスクを設計します。特定のプログラム行/ブランチ/パスをカバーするテストケースを生成することは、現在のLLMでは依然として困難である。
論文参考訳（メタデータ） (2024-06-06T22:07:50Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文参考訳（メタデータ） (2023-05-24T06:16:44Z)
What are the Machine Learning best practices reported by practitioners on Stack Exchange? [4.882319198853359]
127の機械学習ベストプラクティスを14のStack Exchange(STE)ウェブサイトから242のポストを体系的にマイニングする。プラクティスのリストは、ML対応システムの実装プロセスの異なる段階に関連するカテゴリのセットで示されます。
論文参考訳（メタデータ） (2023-01-25T10:50:28Z)
PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。 PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文参考訳（メタデータ） (2022-11-18T18:56:13Z)
Comparative analysis of real bugs in open-source Machine Learning projects -- A Registered Report [5.275804627373337]
機械学習と非機械学習の課題の解決時間分布に差があるかどうかを検討する。制御されたサンプル上で,MLおよび非ML問題の修正の解像度時間とサイズを測定し,各カテゴリの分布を比較した。
論文参考訳（メタデータ） (2022-09-20T18:12:12Z)
Bugs in Machine Learning-based Systems: A Faultload Benchmark [16.956588187947993]
パフォーマンスを評価し、比較し、利点と弱点について議論する標準のバグベンチマークはありません。本研究では,MLベースのシステムにおけるバグの妥当性をまず検証し,各システムにおいて最も重要な要因を示す。標準ベンチマークのすべての基準、すなわち妥当性、公正性、妥当性、ユーザビリティを満足するベンチマークであるdele4MLを提供する。
論文参考訳（メタデータ） (2022-06-24T14:20:34Z)
Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文参考訳（メタデータ） (2022-06-04T22:01:05Z)
OmniXAI: A Library for Explainable AI [98.07381528393245]
eXplainable AI(XAI)のオープンソースPythonライブラリであるOmniXAIを紹介する。オールニウェイで説明可能なAI機能と、さまざまな解釈可能な機械学習技術を提供する。実践者にとってこのライブラリは、アプリケーションの説明を生成するために、使いやすく統合されたインターフェースを提供する。
論文参考訳（メタデータ） (2022-06-01T11:35:37Z)
The Prevalence of Code Smells in Machine Learning projects [9.722159563454436]
静的コード解析は、ソースコードの潜在的な欠陥、機会、共通のコーディング標準の違反を見つけるのに使うことができる。 74のオープンソースプロジェクトのデータセットを集め、依存関係をインストールしてPylintを実行しました。その結果、検出されたすべてのコードの臭いのトップ20に到達した。
論文参考訳（メタデータ） (2021-03-06T16:01:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。