論文の概要: Differential testing for machine learning: an analysis for
classification algorithms beyond deep learning
- arxiv url: http://arxiv.org/abs/2207.11976v1
- Date: Mon, 25 Jul 2022 08:27:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 15:52:32.214382
- Title: Differential testing for machine learning: an analysis for
classification algorithms beyond deep learning
- Title(参考訳): 機械学習のためのディファレンシャルテスト:深層学習以外の分類アルゴリズムの解析
- Authors: Steffen Herbold, Steffen Tunkel
- Abstract要約: 我々はScikit-learn, Weka, Spark MLlib, Caretを用いてケーススタディを行う。
複数のフレームワークでどのアルゴリズムが利用できるかを考慮し、差分テストの可能性を特定する。
他のフレームワークで同じ設定を判断できないことが多いため、実現可能性には制限があるように思える。
- 参考スコア(独自算出の注目度): 7.081604594416339
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context: Differential testing is a useful approach that uses different
implementations of the same algorithms and compares the results for software
testing. In recent years, this approach was successfully used for test
campaigns of deep learning frameworks.
Objective: There is little knowledge on the application of differential
testing beyond deep learning. Within this article, we want to close this gap
for classification algorithms.
Method: We conduct a case study using Scikit-learn, Weka, Spark MLlib, and
Caret in which we identify the potential of differential testing by considering
which algorithms are available in multiple frameworks, the feasibility by
identifying pairs of algorithms that should exhibit the same behavior, and the
effectiveness by executing tests for the identified pairs and analyzing the
deviations.
Results: While we found a large potential for popular algorithms, the
feasibility seems limited because often it is not possible to determine
configurations that are the same in other frameworks. The execution of the
feasible tests revealed that there is a large amount of deviations for the
scores and classes. Only a lenient approach based on statistical significance
of classes does not lead to a huge amount of test failures.
Conclusions: The potential of differential testing beyond deep learning seems
limited for research into the quality of machine learning libraries.
Practitioners may still use the approach if they have deep knowledge about
implementations, especially if a coarse oracle that only considers significant
differences of classes is sufficient.
- Abstract(参考訳): コンテキスト: ディファレンシャルテストは、同じアルゴリズムの異なる実装を使用して、ソフトウェアテストの結果を比較する有用なアプローチである。
近年、この手法はディープラーニングフレームワークのテストキャンペーンに成功している。
目的: ディープラーニング以外のディファレンシャルテストの適用に関する知識はほとんどない。
この記事では、このギャップを分類アルゴリズムで埋めたいと思います。
方法:Scikit-learn,Weka,Spark MLlib,Caretを用いたケーススタディを行い,複数のフレームワークでどのアルゴリズムが利用可能か,同一の振る舞いを示すべきアルゴリズムのペアを特定することで実現可能性,特定したペアのテストを実行し,偏差を分析することでの有効性を考察した。
結果: 一般的なアルゴリズムには大きな可能性を見出しましたが、他のフレームワークで同じ設定を判断できない場合が多いため、実現可能性には限界があります。
実現可能なテストの実行により、スコアとクラスに多くの偏差があることが判明した。
クラスの統計的重要性に基づく寛大なアプローチだけが、大量のテスト失敗につながるわけではない。
結論: ディープラーニング以外の差分テストの可能性は、機械学習ライブラリの品質の研究に限られているように思われる。
実践者は、実装に関する深い知識がある場合、特にクラスの重大な違いしか考慮しない粗いオラクルが十分である場合、まだこのアプローチを使うことがある。
関連論文リスト
- Computability of Classification and Deep Learning: From Theoretical Limits to Practical Feasibility through Quantization [53.15874572081944]
ディープラーニングフレームワークにおける計算可能性について,2つの観点から検討する。
根底にある問題が十分に解決された場合でも、ディープニューラルネットワークを訓練する際のアルゴリズム上の制限を示す。
最後に、分類と深層ネットワークトレーニングの定量化バージョンにおいて、計算可能性の制限は発生せず、一定の程度まで克服可能であることを示す。
論文 参考訳(メタデータ) (2024-08-12T15:02:26Z) - Towards Explainable Test Case Prioritisation with Learning-to-Rank Models [6.289767078502329]
テストケース優先順位付け(TCP)は、ソフトウェアが進化するにつれて品質を確保するために回帰テストにおいて重要なタスクである。
我々は、異なる説明を必要とするシナリオと、TCPの特異性がそれらにどのように影響するかを提示し、議論する。
論文 参考訳(メタデータ) (2024-05-22T16:11:45Z) - Can Tree Based Approaches Surpass Deep Learning in Anomaly Detection? A
Benchmarking Study [0.6291443816903801]
本稿では,機械学習に基づく異常検出アルゴリズムの多種多様さを評価する。
本論文は, 種々の異常検出アルゴリズムの非バイアス比較を行うことにより, 顕著に寄与する。
論文 参考訳(メタデータ) (2024-02-11T19:12:51Z) - Multi-Dimensional Ability Diagnosis for Machine Learning Algorithms [88.93372675846123]
本稿では,機械学習アルゴリズム評価のためのタスク非依存評価フレームワークCamillaを提案する。
認識診断の仮定とニューラルネットワークを用いて、各サンプルのアルゴリズム、サンプル、スキル間の複雑な相互作用を学習する。
我々の実験では、カミラはメートル法信頼性、ランクの整合性、ランクの安定性で最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-07-14T03:15:56Z) - Active Learning Principles for In-Context Learning with Large Language
Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。
ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文 参考訳(メタデータ) (2023-05-23T17:16:04Z) - Towards Diverse Evaluation of Class Incremental Learning: A Representation Learning Perspective [67.45111837188685]
クラスインクリメンタル学習(CIL)アルゴリズムは、インクリメンタルに到着したデータから新しいオブジェクトクラスを継続的に学習することを目的としている。
表現学習における様々な評価プロトコルを用いて,CILアルゴリズムによって訓練されたニューラルネットワークモデルを実験的に解析する。
論文 参考訳(メタデータ) (2022-06-16T11:44:11Z) - Discovering Boundary Values of Feature-based Machine Learning
Classifiers through Exploratory Datamorphic Testing [7.8729820663730035]
本稿では,データ型テスト手法の枠組みとして,機械学習アプリケーションをテストするための一連のテスト戦略を提案する。
探索戦略の3つの変種は、自動データモルフィックテストツールMorphyで実装されたアルゴリズムで示される。
クラス間の境界を見つける能力とコストは、手動で設計した被験者による一連の制御実験と、実際の機械学習モデルによるケーススタディによって評価される。
論文 参考訳(メタデータ) (2021-10-01T11:47:56Z) - Uncertainty Baselines: Benchmarks for Uncertainty & Robustness in Deep
Learning [66.59455427102152]
不確実性ベースライン(Uncertainty Baselines): 各種タスクにおける標準および最先端のディープラーニング手法の高品質な実装。
各ベースラインは、簡単に再利用可能で拡張可能なコンポーネントを備えた、自己完結型の実験パイプラインである。
モデルチェックポイント、Pythonノートブックとしての実験出力、結果を比較するためのリーダーボードを提供する。
論文 参考訳(メタデータ) (2021-06-07T23:57:32Z) - Theoretical Insights Into Multiclass Classification: A High-dimensional
Asymptotic View [82.80085730891126]
線形多クラス分類の最初の現代的精度解析を行う。
分析の結果,分類精度は分布に依存していることがわかった。
得られた洞察は、他の分類アルゴリズムの正確な理解の道を開くかもしれない。
論文 参考訳(メタデータ) (2020-11-16T05:17:29Z) - Probabilistic Diagnostic Tests for Degradation Problems in Supervised
Learning [0.0]
分類アルゴリズムにおけるクラス不均衡、重なり合い、小さな分散、ノイズラベル、スパース限界精度などの問題。
各問題の兆候と症状の同定に基づく確率診断モデルを示す。
いくつかの教師付きアルゴリズムの動作と性能は、トレーニングセットにそのような問題がある場合に研究される。
論文 参考訳(メタデータ) (2020-04-06T20:32:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。