論文の概要: Smoke Testing for Machine Learning: Simple Tests to Discover Severe
Defects
- arxiv url: http://arxiv.org/abs/2009.01521v2
- Date: Fri, 29 Oct 2021 07:15:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 08:10:42.490848
- Title: Smoke Testing for Machine Learning: Simple Tests to Discover Severe
Defects
- Title(参考訳): 機械学習のためのスモークテスト:深刻な欠陥を発見するための簡単なテスト
- Authors: Steffen Herbold, Tobias Haar
- Abstract要約: 我々は、基本的な関数がクラッシュすることなく実行できると主張するのに使用できる、汎用的で単純な煙テストを決定することを試みる。
テストした3つの機械学習ライブラリすべてにバグがあり、3つのライブラリのうち2つに深刻なバグがありました。
- 参考スコア(独自算出の注目度): 7.081604594416339
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning is nowadays a standard technique for data analysis within
software applications. Software engineers need quality assurance techniques
that are suitable for these new kinds of systems. Within this article, we
discuss the question whether standard software testing techniques that have
been part of textbooks since decades are also useful for the testing of machine
learning software. Concretely, we try to determine generic and simple smoke
tests that can be used to assert that basic functions can be executed without
crashing. We found that we can derive such tests using techniques similar to
equivalence classes and boundary value analysis. Moreover, we found that these
concepts can also be applied to hyperparameters, to further improve the quality
of the smoke tests. Even though our approach is almost trivial, we were able to
find bugs in all three machine learning libraries that we tested and severe
bugs in two of the three libraries. This demonstrates that common software
testing techniques are still valid in the age of machine learning and that
considerations how they can be adapted to this new context can help to find and
prevent severe bugs, even in mature machine learning libraries.
- Abstract(参考訳): 機械学習は現在、ソフトウェアアプリケーション内のデータ分析の標準技術である。
ソフトウェアエンジニアは、これらの新しいシステムに適した品質保証技術が必要です。
本稿では,何十年も前から教科書に用いられてきた標準ソフトウェアテスト技術が,機械学習ソフトウェアのテストにも有用かどうかを論じる。
具体的には, 基礎関数がクラッシュすることなく実行可能であるという主張に使用できる, 汎用的かつ単純な煙試験の判定を試みる。
このようなテストは等価クラスや境界値解析と同様の手法で導出できることがわかった。
さらに,これらの概念をハイパーパラメータにも適用することで,喫煙試験の質をさらに向上できることがわかった。
アプローチはほぼ簡単ですが、テストした3つのマシンラーニングライブラリのすべてにバグが見つかり、3つのライブラリのうち2つに深刻なバグがありました。
これは、一般的なソフトウェアテストテクニックが機械学習の時代にはまだ有効であることを示しており、新しいコンテキストにどのように適用できるかを考慮すれば、成熟した機械学習ライブラリでも深刻なバグを発見し、予防することができる。
関連論文リスト
- A Comprehensive Study on Automated Testing with the Software Lifecycle [0.6144680854063939]
この研究は、自動テストがソフトウェアの品質を評価するのをいかに簡単にするか、手動テストと比べてどのように時間を節約するか、そして利点と欠点の観点から、それぞれのテストとどのように違うかを調べる。
ソフトウェアアプリケーションのテストプロセスは、単純化され、特定のテスト状況に合わせてカスタマイズされ、自動テストツールを使用してうまく実行される。
論文 参考訳(メタデータ) (2024-05-02T06:30:37Z) - Automatic Static Bug Detection for Machine Learning Libraries: Are We
There Yet? [14.917820383894124]
Flawfinder、RATS、Cppcheck、Facebook Infer、Clangの5つの人気のある、広く使用されている静的バグ検出を、ソフトウェアバグのキュレートされたデータセットで分析する。
全体として、静的バグ検出装置は、6/410バグ(0.01%)、Flawfinder、RATSといったバグの無視可能な量のバグを検知し、機械学習ライブラリでソフトウェアバグを見つけるのに最も効果的な静的チェッカーであることを示した。
論文 参考訳(メタデータ) (2023-07-09T01:38:52Z) - ALBench: A Framework for Evaluating Active Learning in Object Detection [102.81795062493536]
本稿では、オブジェクト検出におけるアクティブラーニングを評価するために、ALBenchという名前のアクティブラーニングベンチマークフレームワークをコントリビュートする。
自動深層モデルトレーニングシステム上で開発されたこのALBenchフレームワークは、使いやすく、さまざまなアクティブな学習アルゴリズムと互換性があり、同じトレーニングおよびテストプロトコルを保証する。
論文 参考訳(メタデータ) (2022-07-27T07:46:23Z) - Software Testing for Machine Learning [13.021014899410684]
機械学習は騙されやすいことが示され、エラーや致命的な失敗に至る。
この状況は、特に安全クリティカルな応用において機械学習が広く使われていることを疑問視している。
この要約では、機械学習のためのソフトウェアテストの現状について論じる。
論文 参考訳(メタデータ) (2022-04-30T08:47:10Z) - Human-in-the-Loop Disinformation Detection: Stance, Sentiment, or
Something Else? [93.91375268580806]
政治とパンデミックは、機械学習対応の偽ニュース検出アルゴリズムの開発に十分な動機を与えている。
既存の文献は、主に完全自動化されたケースに焦点を当てているが、その結果得られた技術は、軍事応用に必要な様々なトピック、ソース、時間スケールに関する偽情報を確実に検出することはできない。
既に利用可能なアナリストを人間のループとして活用することにより、感情分析、アスペクトベースの感情分析、姿勢検出といった標準的な機械学習技術は、部分的に自動化された偽情報検出システムに使用するためのもっとも有効な方法となる。
論文 参考訳(メタデータ) (2021-11-09T13:30:34Z) - Learn then Test: Calibrating Predictive Algorithms to Achieve Risk
Control [67.52000805944924]
Learn then Test (LTT)は、機械学習モデルを校正するフレームワークである。
私たちの主な洞察は、リスクコントロール問題を複数の仮説テストとして再設計することです。
我々は、コンピュータビジョンの詳細な実例を用いて、コア機械学習タスクの新しいキャリブレーション手法を提供するために、我々のフレームワークを使用します。
論文 参考訳(メタデータ) (2021-10-03T17:42:03Z) - Discovering Boundary Values of Feature-based Machine Learning
Classifiers through Exploratory Datamorphic Testing [7.8729820663730035]
本稿では,データ型テスト手法の枠組みとして,機械学習アプリケーションをテストするための一連のテスト戦略を提案する。
探索戦略の3つの変種は、自動データモルフィックテストツールMorphyで実装されたアルゴリズムで示される。
クラス間の境界を見つける能力とコストは、手動で設計した被験者による一連の制御実験と、実際の機械学習モデルによるケーススタディによって評価される。
論文 参考訳(メタデータ) (2021-10-01T11:47:56Z) - Uncertainty Baselines: Benchmarks for Uncertainty & Robustness in Deep
Learning [66.59455427102152]
不確実性ベースライン(Uncertainty Baselines): 各種タスクにおける標準および最先端のディープラーニング手法の高品質な実装。
各ベースラインは、簡単に再利用可能で拡張可能なコンポーネントを備えた、自己完結型の実験パイプラインである。
モデルチェックポイント、Pythonノートブックとしての実験出力、結果を比較するためのリーダーボードを提供する。
論文 参考訳(メタデータ) (2021-06-07T23:57:32Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Automated Content Grading Using Machine Learning [0.0]
本研究プロジェクトは,技術科の学生による試験で書かれた理論的回答の段階付けを自動化するための原始的な実験である。
本稿では,機械学習におけるアルゴリズム的アプローチを用いて,試験回答論文の理論的内容を自動的に検証し,評価する方法について述べる。
論文 参考訳(メタデータ) (2020-04-08T23:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。