論文の概要: How Much Data Analytics is Enough? The ROI of Machine Learning
Classification and its Application to Requirements Dependency Classification
- arxiv url: http://arxiv.org/abs/2109.14097v1
- Date: Tue, 28 Sep 2021 23:27:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 01:44:16.913871
- Title: How Much Data Analytics is Enough? The ROI of Machine Learning
Classification and its Application to Requirements Dependency Classification
- Title(参考訳): データ分析はいくらで十分か?
機械学習分類のROIとその要件依存分類への応用
- Authors: Gouri Deshpande, Guenther Ruhe, Chad Saunders
- Abstract要約: 機械学習は組織の効率性と効率を大幅に改善する。
しかし,ML手法の選択と実装はほとんど精度基準に依存している。
本研究は、投資の見返りに応じて精度基準を引き上げることにより、このギャップに対処するアプローチの成果を示す。
- 参考スコア(独自算出の注目度): 5.195942130196466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine Learning (ML) can substantially improve the efficiency and
effectiveness of organizations and is widely used for different purposes within
Software Engineering. However, the selection and implementation of ML
techniques rely almost exclusively on accuracy criteria. Thus, for
organizations wishing to realize the benefits of ML investments, this narrow
approach ignores crucial considerations around the anticipated costs of the ML
activities across the ML lifecycle, while failing to account for the benefits
that are likely to accrue from the proposed activity. We present findings for
an approach that addresses this gap by enhancing the accuracy criterion with
return on investment (ROI) considerations. Specifically, we analyze the
performance of the two state-of-the-art ML techniques: Random Forest and
Bidirectional Encoder Representations from Transformers (BERT), based on
accuracy and ROI for two publicly available data sets. Specifically, we compare
decision-making on requirements dependency extraction (i) exclusively based on
accuracy and (ii) extended to include ROI analysis. As a result, we propose
recommendations for selecting ML classification techniques based on the degree
of training data used. Our findings indicate that considering ROI as additional
criteria can drastically influence ML selection when compared to decisions
based on accuracy as the sole criterion
- Abstract(参考訳): 機械学習(ML)は組織の効率性と効率を大幅に改善し、ソフトウェア工学におけるさまざまな目的のために広く利用されている。
しかし,ML手法の選択と実装はほとんど精度基準に依存している。
したがって、ML投資のメリットを実現したい組織にとって、この狭いアプローチは、MLライフサイクル全体にわたるML活動の予想されるコストに関する決定的な考慮を無視し、提案された活動から生じる可能性のあるメリットを考慮に入れていない。
本稿では、投資収益率(ROI)を考慮した精度基準を向上することにより、このギャップに対処するアプローチの成果を示す。
具体的には、2つの公開データセットの精度とROIに基づいて、ランダムフォレストと双方向エンコーダ表現(BERT)の2つの最先端ML技術の性能を分析する。
具体的には,要求依存抽出における意思決定の比較を行う。
(i)精度と精度のみに基づく
(ii)ROI分析を含むように拡張した。
その結果,使用したトレーニングデータの度合いに基づいて,ML分類手法を選択するための推奨事項を提案する。
以上の結果から, ROIを追加基準として考えると, 精度に基づく決定を唯一の基準とする決定と比較すると, ML選択に大きく影響を与える可能性が示唆された。
関連論文リスト
- From Quantity to Quality: Boosting LLM Performance with Self-Guided Data
Selection for Instruction Tuning [54.222609226692015]
我々は大規模言語モデルのための自己誘導手法を導入し、大規模なオープンソースデータセットからサクラサンプルを自律的に識別し、選択する。
私たちの重要なイノベーションであるIFD(Instruction-Following Difficulty)メトリックは、モデルが期待する応答と自動生成技術との間の相違を識別するための重要なツールとして現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Leaving the Nest: Going Beyond Local Loss Functions for
Predict-Then-Optimize [57.22851616806617]
本手法は,文献から得られた4つの領域において,最先端の成果が得られることを示す。
提案手法は, 局所性仮定が破られた場合, 既存手法よりも200%近く性能が向上する。
論文 参考訳(メタデータ) (2023-05-26T11:17:45Z) - Benchmarking Automated Machine Learning Methods for Price Forecasting
Applications [58.720142291102135]
自動機械学習(AutoML)ソリューションで手作業で作成したMLパイプラインを置換する可能性を示す。
CRISP-DMプロセスに基づいて,手動MLパイプラインを機械学習と非機械学習に分割した。
本稿では、価格予測の産業利用事例として、ドメイン知識とAutoMLを組み合わせることで、ML専門家への依存が弱まることを示す。
論文 参考訳(メタデータ) (2023-04-28T10:27:38Z) - ezDPS: An Efficient and Zero-Knowledge Machine Learning Inference
Pipeline [2.0813318162800707]
我々は,新しい効率的かつゼロ知識の機械学習推論スキームであるezDPSを提案する。
ezDPSはzkMLパイプラインで、データを複数のステージで高精度に処理する。
ezDPSは,全測定値における一般的な回路ベース手法よりも1~3桁効率が高いことを示す。
論文 参考訳(メタデータ) (2022-12-11T06:47:28Z) - Analyzing Machine Learning Models for Credit Scoring with Explainable AI
and Optimizing Investment Decisions [0.0]
本稿では、説明可能なAI(XAI)の実践に関連する2つの異なる質問について検討する。
この研究では、単一分類器(論理回帰、決定木、LDA、QDA)、異種アンサンブル(AdaBoost、ランダムフォレスト)、シーケンシャルニューラルネットワークなど、さまざまな機械学習モデルを比較した。
LIMEとSHAPの2つの高度なポストホックモデル説明可能性技術を用いて、MLベースのクレジットスコアリングモデルを評価する。
論文 参考訳(メタデータ) (2022-09-19T21:44:42Z) - On Taking Advantage of Opportunistic Meta-knowledge to Reduce
Configuration Spaces for Automated Machine Learning [11.670797168818773]
主要な研究課題は、パフォーマンスの悪いMLパイプラインのコスト評価を事前に回避できるかどうかである。
AutoWeka4MCPSパッケージによる多くの実験は、オポチュニティ/システムメタ知識がMLの結果を改善することを示唆している。
我々は、データセットの「チャレンジ」に対する強い感度、すなわち、予測子の選択における特異性によってパフォーマンスが著しく向上するかどうかを観察する。
論文 参考訳(メタデータ) (2022-08-08T19:22:24Z) - Filter Methods for Feature Selection in Supervised Machine Learning
Applications -- Review and Benchmark [0.0]
本稿では,特徴選択ベンチマークに関する文献を合成し,広く使用されているR環境における58の手法の性能評価を行う。
MLモデルでは難しい4つの典型的なデータセットシナリオについて検討する。
論文 参考訳(メタデータ) (2021-11-23T20:20:24Z) - Uncertainty-aware Remaining Useful Life predictor [57.74855412811814]
有効寿命 (Remaining Useful Life, RUL) とは、特定の産業資産の運用期間を推定する問題である。
本研究では,Deep Gaussian Processes (DGPs) を,前述の制限に対する解決策と捉える。
アルゴリズムの性能はNASAの航空機エンジン用N-CMAPSSデータセットで評価される。
論文 参考訳(メタデータ) (2021-04-08T08:50:44Z) - Robusta: Robust AutoML for Feature Selection via Reinforcement Learning [24.24652530951966]
強化学習(RL)に基づく初の堅牢なAutoMLフレームワークRobostaを提案します。
このフレームワークは,良性サンプルの競争精度を維持しつつ,モデルロバスト性を最大22%向上させることができることを示す。
論文 参考訳(メタデータ) (2021-01-15T03:12:29Z) - Optimization-driven Machine Learning for Intelligent Reflecting Surfaces
Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。
散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。
本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文 参考訳(メタデータ) (2020-08-29T08:39:43Z) - A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。
ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。
大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文 参考訳(メタデータ) (2020-08-10T06:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。