論文の概要: Beyond Accuracy: ROI-driven Data Analytics of Empirical Data
- arxiv url: http://arxiv.org/abs/2009.06492v1
- Date: Mon, 14 Sep 2020 14:49:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 11:41:50.258215
- Title: Beyond Accuracy: ROI-driven Data Analytics of Empirical Data
- Title(参考訳): 精度以上のもの:roiによる経験的データのデータ分析
- Authors: Gouri Deshpande and Guenther Ruhe
- Abstract要約: データ分析を行う場合、Return-on-Investmentを検討することが重要です。
このビジョンペーパーは、データ分析を行う場合、Return-on-Investmentを検討することが重要であることを示している。
- 参考スコア(独自算出の注目度): 3.5751623095926806
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This vision paper demonstrates that it is crucial to consider
Return-on-Investment (ROI) when performing Data Analytics. Decisions on "How
much analytics is needed"? are hard to answer. ROI could guide for decision
support on the What?, How?, and How Much? analytics for a given problem.
Method: The proposed conceptual framework is validated through two empirical
studies that focus on requirements dependencies extraction in the Mozilla
Firefox project. The two case studies are (i) Evaluation of fine-tuned BERT
against Naive Bayes and Random Forest machine learners for binary dependency
classification and (ii) Active Learning against passive Learning (random
sampling) for REQUIRES dependency extraction. For both the cases, their
analysis investment (cost) is estimated, and the achievable benefit from DA is
predicted, to determine a break-even point of the investigation. Results: For
the first study, fine-tuned BERT performed superior to the Random Forest,
provided that more than 40% of training data is available. For the second,
Active Learning achieved higher F1 accuracy within fewer iterations and higher
ROI compared to Baseline (Random sampling based RF classifier). In both the
studies, estimate on, How much analysis likely would pay off for the invested
efforts?, was indicated by the break-even point. Conclusions: Decisions for the
depth and breadth of DA of empirical data should not be made solely based on
the accuracy measures. Since ROI-driven Data Analytics provides a simple yet
effective direction to discover when to stop further investigation while
considering the cost and value of the various types of analysis, it helps to
avoid over-analyzing empirical data.
- Abstract(参考訳): 本稿では,データ分析を行う際にroi(return-on-investment)を検討することが重要であることを示す。
どの程度の分析が必要なのか?
答えが難しいのです
ROIは、何について意思決定を支援するか?
どうやって?
いくらだ?
特定の問題に対する分析です
方法:提案する概念フレームワークは,mozilla firefoxプロジェクトにおける要件依存性の抽出に注目した2つの実証研究によって検証される。
2つのケーススタディは
(i)二元依存分類のためのナイーブベイズおよびランダムフォレストマシン学習者に対する微調整bertの評価と評価
(ii)依存抽出を必要とする受動的学習(ランダムサンプリング)に対するアクティブラーニング。
いずれの場合も、彼らの分析投資(コスト)を推定し、daによる達成可能な利益を予測し、調査の破断点を決定する。
結果: 第1報では,トレーニングデータの40%以上が利用可能である以上,ランダムフォレストよりも微調整されたbertが優れていた。
第2に、Active Learning は、Baseline (Random sample based RF classifier) と比較して、少ないイテレーションで F1 の精度が高く、ROI も高い。
どちらの研究でも、見積もりは、投資した努力に対してどの程度の分析が報われるか。
破断点が示されていた。
結論: 実験データのDAの深さと幅の決定は, 精度測定のみに基づいて行うべきではない。
ROI駆動のData Analyticsは、さまざまなタイプの分析のコストと価値を考慮して、いつさらなる調査を止めるべきかを発見するための、シンプルで効果的な指示を提供するので、過剰な分析データを避けるのに役立つ。
関連論文リスト
- Investigating the Impact of Hard Samples on Accuracy Reveals In-class Data Imbalance [4.291589126905706]
AutoMLドメインでは、モデルの有効性を評価するための重要な指標として、テスト精度が宣言される。
しかし、主性能指標としての試験精度の信頼性は疑問視されている。
トレーニングセットとテストセット間のハードサンプルの分布は、これらのセットの難易度に影響を与える。
本稿では,ハードサンプル識別法を比較するためのベンチマーク手法を提案する。
論文 参考訳(メタデータ) (2024-09-22T11:38:14Z) - AROhI: An Interactive Tool for Estimating ROI of Data Analytics [0.0]
データ分析を行う場合、Return On Investmentを検討することが重要です。
この作業では、実証のための従来の高度なMLアプローチを提供する包括的なツールについて詳述する。
論文 参考訳(メタデータ) (2024-07-18T18:19:17Z) - Uncertainty for Active Learning on Graphs [70.44714133412592]
不確実性サンプリングは、機械学習モデルのデータ効率を改善することを目的とした、アクティブな学習戦略である。
予測の不確実性を超えた不確実性サンプリングをベンチマークし、他のアクティブラーニング戦略に対する大きなパフォーマンスギャップを強調します。
提案手法は,データ生成プロセスの観点から基幹的ベイズ不確実性推定法を開発し,不確実性サンプリングを最適クエリへ導く上での有効性を実証する。
論文 参考訳(メタデータ) (2024-05-02T16:50:47Z) - How Much Data are Enough? Investigating Dataset Requirements for Patch-Based Brain MRI Segmentation Tasks [74.21484375019334]
ディープニューラルネットワークを確実にトレーニングするには、大規模なデータセットへのアクセスが必要である。
モデル開発に関連する時間的・経済的コストを緩和するためには,満足度の高いモデルをトレーニングするために必要なデータの量を明確に理解することが重要である。
本稿では,パッチベースのセグメンテーションネットワークのトレーニングに必要なアノテートデータの量を推定するための戦略的枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-04T13:55:06Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Reinforced Approximate Exploratory Data Analysis [7.974685452145769]
まず,対話型データ探索環境におけるサンプリングの影響について検討し,近似誤差を導入する。
本稿では, サンプル選択を最適化し, 分析および洞察フローの持続性を維持するための, 深層強化学習(DRL)に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-12T20:20:22Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - How Much Data Analytics is Enough? The ROI of Machine Learning
Classification and its Application to Requirements Dependency Classification [5.195942130196466]
機械学習は組織の効率性と効率を大幅に改善する。
しかし,ML手法の選択と実装はほとんど精度基準に依存している。
本研究は、投資の見返りに応じて精度基準を引き上げることにより、このギャップに対処するアプローチの成果を示す。
論文 参考訳(メタデータ) (2021-09-28T23:27:57Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。