論文の概要: Beyond Accuracy: ROI-driven Data Analytics of Empirical Data
- arxiv url: http://arxiv.org/abs/2009.06492v1
- Date: Mon, 14 Sep 2020 14:49:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 11:41:50.258215
- Title: Beyond Accuracy: ROI-driven Data Analytics of Empirical Data
- Title(参考訳): 精度以上のもの:roiによる経験的データのデータ分析
- Authors: Gouri Deshpande and Guenther Ruhe
- Abstract要約: データ分析を行う場合、Return-on-Investmentを検討することが重要です。
このビジョンペーパーは、データ分析を行う場合、Return-on-Investmentを検討することが重要であることを示している。
- 参考スコア(独自算出の注目度): 3.5751623095926806
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This vision paper demonstrates that it is crucial to consider
Return-on-Investment (ROI) when performing Data Analytics. Decisions on "How
much analytics is needed"? are hard to answer. ROI could guide for decision
support on the What?, How?, and How Much? analytics for a given problem.
Method: The proposed conceptual framework is validated through two empirical
studies that focus on requirements dependencies extraction in the Mozilla
Firefox project. The two case studies are (i) Evaluation of fine-tuned BERT
against Naive Bayes and Random Forest machine learners for binary dependency
classification and (ii) Active Learning against passive Learning (random
sampling) for REQUIRES dependency extraction. For both the cases, their
analysis investment (cost) is estimated, and the achievable benefit from DA is
predicted, to determine a break-even point of the investigation. Results: For
the first study, fine-tuned BERT performed superior to the Random Forest,
provided that more than 40% of training data is available. For the second,
Active Learning achieved higher F1 accuracy within fewer iterations and higher
ROI compared to Baseline (Random sampling based RF classifier). In both the
studies, estimate on, How much analysis likely would pay off for the invested
efforts?, was indicated by the break-even point. Conclusions: Decisions for the
depth and breadth of DA of empirical data should not be made solely based on
the accuracy measures. Since ROI-driven Data Analytics provides a simple yet
effective direction to discover when to stop further investigation while
considering the cost and value of the various types of analysis, it helps to
avoid over-analyzing empirical data.
- Abstract(参考訳): 本稿では,データ分析を行う際にroi(return-on-investment)を検討することが重要であることを示す。
どの程度の分析が必要なのか?
答えが難しいのです
ROIは、何について意思決定を支援するか?
どうやって?
いくらだ?
特定の問題に対する分析です
方法:提案する概念フレームワークは,mozilla firefoxプロジェクトにおける要件依存性の抽出に注目した2つの実証研究によって検証される。
2つのケーススタディは
(i)二元依存分類のためのナイーブベイズおよびランダムフォレストマシン学習者に対する微調整bertの評価と評価
(ii)依存抽出を必要とする受動的学習(ランダムサンプリング)に対するアクティブラーニング。
いずれの場合も、彼らの分析投資(コスト)を推定し、daによる達成可能な利益を予測し、調査の破断点を決定する。
結果: 第1報では,トレーニングデータの40%以上が利用可能である以上,ランダムフォレストよりも微調整されたbertが優れていた。
第2に、Active Learning は、Baseline (Random sample based RF classifier) と比較して、少ないイテレーションで F1 の精度が高く、ROI も高い。
どちらの研究でも、見積もりは、投資した努力に対してどの程度の分析が報われるか。
破断点が示されていた。
結論: 実験データのDAの深さと幅の決定は, 精度測定のみに基づいて行うべきではない。
ROI駆動のData Analyticsは、さまざまなタイプの分析のコストと価値を考慮して、いつさらなる調査を止めるべきかを発見するための、シンプルで効果的な指示を提供するので、過剰な分析データを避けるのに役立つ。
関連論文リスト
- DACO: Towards Application-Driven and Comprehensive Data Analysis via
Code Generation [86.4326416303723]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - Scalable Learning of Item Response Theory Models [53.43355949923962]
項目応答理論(IRT)モデルは、分類データから、$m$テスト項目の遅延困難特性とともに、$n$試験の潜時能力を評価することを目的としている。
我々はこれらのモデルの類似性をロジスティック回帰に利用し、コアセットと呼ばれる小さな重み付き部分集合を用いて正確に近似することができる。
論文 参考訳(メタデータ) (2024-03-01T17:12:53Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Reinforced Approximate Exploratory Data Analysis [7.974685452145769]
まず,対話型データ探索環境におけるサンプリングの影響について検討し,近似誤差を導入する。
本稿では, サンプル選択を最適化し, 分析および洞察フローの持続性を維持するための, 深層強化学習(DRL)に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-12T20:20:22Z) - Empirical Bayesian Approaches for Robust Constraint-based Causal
Discovery under Insufficient Data [38.883810061897094]
因果発見法は、多くの実世界のデータセットではそうではないかもしれないデータ飽和度を仮定する。
本研究では,制約に基づく因果探索手法の性能向上を図るため,ベイジアンによる頻繁な独立性試験を提案する。
実験の結果,SOTA法よりも精度と効率が向上した。
論文 参考訳(メタデータ) (2022-06-16T21:08:49Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - How Much Data Analytics is Enough? The ROI of Machine Learning
Classification and its Application to Requirements Dependency Classification [5.195942130196466]
機械学習は組織の効率性と効率を大幅に改善する。
しかし,ML手法の選択と実装はほとんど精度基準に依存している。
本研究は、投資の見返りに応じて精度基準を引き上げることにより、このギャップに対処するアプローチの成果を示す。
論文 参考訳(メタデータ) (2021-09-28T23:27:57Z) - SAIS: Supervising and Augmenting Intermediate Steps for Document-Level
Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。
そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文 参考訳(メタデータ) (2021-09-24T17:37:35Z) - Active Deep Learning on Entity Resolution by Risk Sampling [5.219701379581547]
アクティブラーニング(al)は、モデルトレーニングに有用なデータに焦点を当てた、実現可能なソリューションである。
実体解決のためのリスクサンプリング(ER)の新たなALアプローチを提案する。
ALのコアセット特性に基づいて、非一様連続性によるコアセット損失を最小限に抑える最適化モデルを理論的に導出する。
実データに対する提案手法の有効性を比較検討により実証的に検証した。
論文 参考訳(メタデータ) (2020-12-23T20:38:25Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。