Fugu-MT 論文翻訳(概要): Beyond Accuracy: ROI-driven Data Analytics of Empirical Data

論文の概要: Beyond Accuracy: ROI-driven Data Analytics of Empirical Data

arxiv url: http://arxiv.org/abs/2009.06492v1
Date: Mon, 14 Sep 2020 14:49:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-18 11:41:50.258215
Title: Beyond Accuracy: ROI-driven Data Analytics of Empirical Data
Title（参考訳）: 精度以上のもの:roiによる経験的データのデータ分析
Authors: Gouri Deshpande and Guenther Ruhe
Abstract要約: データ分析を行う場合、Return-on-Investmentを検討することが重要です。このビジョンペーパーは、データ分析を行う場合、Return-on-Investmentを検討することが重要であることを示している。
参考スコア（独自算出の注目度）: 3.5751623095926806
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: This vision paper demonstrates that it is crucial to consider Return-on-Investment (ROI) when performing Data Analytics. Decisions on "How much analytics is needed"? are hard to answer. ROI could guide for decision support on the What?, How?, and How Much? analytics for a given problem. Method: The proposed conceptual framework is validated through two empirical studies that focus on requirements dependencies extraction in the Mozilla Firefox project. The two case studies are (i) Evaluation of fine-tuned BERT against Naive Bayes and Random Forest machine learners for binary dependency classification and (ii) Active Learning against passive Learning (random sampling) for REQUIRES dependency extraction. For both the cases, their analysis investment (cost) is estimated, and the achievable benefit from DA is predicted, to determine a break-even point of the investigation. Results: For the first study, fine-tuned BERT performed superior to the Random Forest, provided that more than 40% of training data is available. For the second, Active Learning achieved higher F1 accuracy within fewer iterations and higher ROI compared to Baseline (Random sampling based RF classifier). In both the studies, estimate on, How much analysis likely would pay off for the invested efforts?, was indicated by the break-even point. Conclusions: Decisions for the depth and breadth of DA of empirical data should not be made solely based on the accuracy measures. Since ROI-driven Data Analytics provides a simple yet effective direction to discover when to stop further investigation while considering the cost and value of the various types of analysis, it helps to avoid over-analyzing empirical data.
Abstract（参考訳）: 本稿では,データ分析を行う際にroi(return-on-investment)を検討することが重要であることを示す。どの程度の分析が必要なのか? 答えが難しいのです ROIは、何について意思決定を支援するか? どうやって? いくらだ? 特定の問題に対する分析です方法:提案する概念フレームワークは,mozilla firefoxプロジェクトにおける要件依存性の抽出に注目した2つの実証研究によって検証される。 2つのケーススタディは (i)二元依存分類のためのナイーブベイズおよびランダムフォレストマシン学習者に対する微調整bertの評価と評価 (ii)依存抽出を必要とする受動的学習(ランダムサンプリング)に対するアクティブラーニング。いずれの場合も、彼らの分析投資(コスト)を推定し、daによる達成可能な利益を予測し、調査の破断点を決定する。結果: 第1報では,トレーニングデータの40%以上が利用可能である以上,ランダムフォレストよりも微調整されたbertが優れていた。第2に、Active Learning は、Baseline (Random sample based RF classifier) と比較して、少ないイテレーションで F1 の精度が高く、ROI も高い。どちらの研究でも、見積もりは、投資した努力に対してどの程度の分析が報われるか。破断点が示されていた。結論: 実験データのDAの深さと幅の決定は, 精度測定のみに基づいて行うべきではない。 ROI駆動のData Analyticsは、さまざまなタイプの分析のコストと価値を考慮して、いつさらなる調査を止めるべきかを発見するための、シンプルで効果的な指示を提供するので、過剰な分析データを避けるのに役立つ。

関連論文リスト

Observationally Informed Adaptive Causal Experimental Design [55.998153710215654]
本稿では,観測モデルを基礎的先行として活用する新たなパラダイムであるアクティブ残留学習を提案する。このアプローチは、実験的な焦点を、目標因果量の学習から、観察バイアスの補正に必要な残差を効率的に推定するへとシフトさせる。合成および半合成ベンチマークの実験は、R-Designがベースラインを大幅に上回ることを示した。
論文参考訳（メタデータ） (2026-03-04T06:52:37Z)
Exploring the Garden of Forking Paths in Empirical Software Engineering Research: A Multiverse Analysis [3.6324565773746147]
本論文は,いわゆる多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元 9つの重要な分析的決定を、少なくとも1つの等しく防御可能な代替手段で特定する。圧倒的多数は質的に異なる結果をもたらし、時には反対の結果ももたらした。
論文参考訳（メタデータ） (2025-12-09T18:47:00Z)
Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning [71.3533541927459]
アクティベーション推論ポテンシャル(RAP)と呼ばれる新しいデータ選択パラダイムを提案する。 RAPは、真のマルチモーダル推論を刺激する各サンプルのポテンシャルを推定することで、認知サンプルを識別する。我々のRAP法は、トレーニングデータの9.3%しか使用せず、計算コストを43%以上削減しながら、常に優れた性能を実現している。
論文参考訳（メタデータ） (2025-06-05T08:40:24Z)
Enhancing Study-Level Inference from Clinical Trial Papers via RL-based Numeric Reasoning [10.449112615828419]
我々はその問題を量的推論の1つとして概念化している。本研究では,数値データ抽出モデルと効果推定成分からなる数値推論システムを開発する。
論文参考訳（メタデータ） (2025-05-28T22:59:45Z)
Investigating the Impact of Hard Samples on Accuracy Reveals In-class Data Imbalance [4.291589126905706]
AutoMLドメインでは、モデルの有効性を評価するための重要な指標として、テスト精度が宣言される。しかし、主性能指標としての試験精度の信頼性は疑問視されている。トレーニングセットとテストセット間のハードサンプルの分布は、これらのセットの難易度に影響を与える。本稿では,ハードサンプル識別法を比較するためのベンチマーク手法を提案する。
論文参考訳（メタデータ） (2024-09-22T11:38:14Z)
AROhI: An Interactive Tool for Estimating ROI of Data Analytics [0.0]
データ分析を行う場合、Return On Investmentを検討することが重要です。この作業では、実証のための従来の高度なMLアプローチを提供する包括的なツールについて詳述する。
論文参考訳（メタデータ） (2024-07-18T18:19:17Z)
Uncertainty for Active Learning on Graphs [70.44714133412592]
不確実性サンプリングは、機械学習モデルのデータ効率を改善することを目的とした、アクティブな学習戦略である。予測の不確実性を超えた不確実性サンプリングをベンチマークし、他のアクティブラーニング戦略に対する大きなパフォーマンスギャップを強調します。提案手法は,データ生成プロセスの観点から基幹的ベイズ不確実性推定法を開発し,不確実性サンプリングを最適クエリへ導く上での有効性を実証する。
論文参考訳（メタデータ） (2024-05-02T16:50:47Z)
How Much Data are Enough? Investigating Dataset Requirements for Patch-Based Brain MRI Segmentation Tasks [74.21484375019334]
ディープニューラルネットワークを確実にトレーニングするには、大規模なデータセットへのアクセスが必要である。モデル開発に関連する時間的・経済的コストを緩和するためには,満足度の高いモデルをトレーニングするために必要なデータの量を明確に理解することが重要である。本稿では,パッチベースのセグメンテーションネットワークのトレーニングに必要なアノテートデータの量を推定するための戦略的枠組みを提案する。
論文参考訳（メタデータ） (2024-04-04T13:55:06Z)
DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。 LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文参考訳（メタデータ） (2024-03-04T22:47:58Z)
LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文参考訳（メタデータ） (2023-04-28T19:05:16Z)
ASPEST: Bridging the Gap Between Active Learning and Selective Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文参考訳（メタデータ） (2023-04-07T23:51:07Z)
Reinforced Approximate Exploratory Data Analysis [7.974685452145769]
まず,対話型データ探索環境におけるサンプリングの影響について検討し,近似誤差を導入する。本稿では, サンプル選択を最適化し, 分析および洞察フローの持続性を維持するための, 深層強化学習(DRL)に基づくフレームワークを提案する。
論文参考訳（メタデータ） (2022-12-12T20:20:22Z)
Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文参考訳（メタデータ） (2022-01-11T23:01:12Z)
How Much Data Analytics is Enough? The ROI of Machine Learning Classification and its Application to Requirements Dependency Classification [5.195942130196466]
機械学習は組織の効率性と効率を大幅に改善する。しかし,ML手法の選択と実装はほとんど精度基準に依存している。本研究は、投資の見返りに応じて精度基準を引き上げることにより、このギャップに対処するアプローチの成果を示す。
論文参考訳（メタデータ） (2021-09-28T23:27:57Z)
Provably Efficient Causal Reinforcement Learning with Confounded Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-22T14:49:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。