Fugu-MT 論文翻訳(概要): Does imputation matter? Benchmark for predictive models

論文の概要: Does imputation matter? Benchmark for predictive models

arxiv url: http://arxiv.org/abs/2007.02837v1
Date: Mon, 6 Jul 2020 15:47:36 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-13 01:32:24.907768
Title: Does imputation matter? Benchmark for predictive models
Title（参考訳）: インプテーションは重要か? 予測モデルのためのベンチマーク
Authors: Katarzyna Wo\'znica and Przemys{\l}aw Biecek
Abstract要約: 本稿では,予測モデルに対するデータ計算アルゴリズムの実証的効果を体系的に評価する。主な貢献は,(1)実生活の分類タスクに基づく経験的ベンチマークのための一般的な手法の推薦である。
参考スコア（独自算出の注目度）: 5.802346990263708
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Incomplete data are common in practical applications. Most predictive machine learning models do not handle missing values so they require some preprocessing. Although many algorithms are used for data imputation, we do not understand the impact of the different methods on the predictive models' performance. This paper is first that systematically evaluates the empirical effectiveness of data imputation algorithms for predictive models. The main contributions are (1) the recommendation of a general method for empirical benchmarking based on real-life classification tasks and the (2) comparative analysis of different imputation methods for a collection of data sets and a collection of ML algorithms.
Abstract（参考訳）: 不完全なデータは実用的な用途で一般的である。ほとんどの予測機械学習モデルは、欠落した値を処理しないため、事前処理が必要になる。データ計算に多くのアルゴリズムが用いられているが、予測モデルの性能に対する異なる手法の影響は理解されていない。本稿では,予測モデルに対するデータ計算アルゴリズムの実証的有効性を,まず体系的に評価する。主な貢献は,(1)実生活の分類タスクに基づく経験的ベンチマークのための一般的な手法の推薦,(2)データセットの集合とMLアルゴリズムの集合に対する異なる計算方法の比較分析である。

関連論文リスト

DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文参考訳（メタデータ） (2025-02-22T08:53:39Z)
Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文参考訳（メタデータ） (2024-10-30T17:20:10Z)
Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文参考訳（メタデータ） (2024-06-16T17:09:24Z)
Machine Learning Based Missing Values Imputation in Categorical Datasets [2.5611256859404983]
この研究では、分類データセットのギャップを埋めるための機械学習アルゴリズムの使用について検討した。 Error Correction Output Codesフレームワークを使用して構築されたアンサンブルモデルに重点が置かれた。大量のラベル付きデータの要求を含む、これらの奨励的な結果にもかかわらず、データ計算の欠如に対する深い学習には障害がある。
論文参考訳（メタデータ） (2023-06-10T03:29:48Z)
Assessing the Generalizability of a Performance Predictive Model [0.6070952062639761]
本稿では,アルゴリズム性能の予測モデルの一般化可能性を評価するワークフローを提案する。その結果,ランドスケープの特徴空間における一般化可能性パターンが性能空間に反映されることが示唆された。
論文参考訳（メタデータ） (2023-05-31T12:50:44Z)
A Comparison of Modeling Preprocessing Techniques [0.0]
本稿では,構造化データに対する予測性能の観点から,各種データ処理手法の性能を比較した。様々な構造、相互作用、複雑さの3つのデータセットが構築された。特徴選択,分類的ハンドリング,ヌル計算のいくつかの手法を比較した。
論文参考訳（メタデータ） (2023-02-23T14:11:08Z)
Machine Learning Capability: A standardized metric using case difficulty with applications to individualized deployment of supervised machine learning [2.2060666847121864]
モデル評価は教師付き機械学習分類解析において重要な要素である。アイテム応答理論(IRT)と機械学習を用いたコンピュータ適応テスト(CAT)は、最終分類結果とは無関係にデータセットをベンチマークすることができる。
論文参考訳（メタデータ） (2023-02-09T00:38:42Z)
HyperImpute: Generalized Iterative Imputation with Automatic Model Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文参考訳（メタデータ） (2022-06-15T19:10:35Z)
Doing Great at Estimating CATE? On the Neglected Assumptions in Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文参考訳（メタデータ） (2021-07-28T13:21:27Z)
ALT-MAS: A Data-Efficient Framework for Active Testing of Machine Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文参考訳（メタデータ） (2021-04-11T12:14:04Z)
Performance metrics for intervention-triggering prediction models do not reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文参考訳（メタデータ） (2020-06-02T16:26:49Z)
A Comparison of Methods for Treatment Assignment with an Application to Playlist Generation [13.804332504576301]
文献で提案される様々な手法をアルゴリズムの3つの一般的なクラス(またはメタナー)に分類する。結果や因果効果の予測を最適化することは、治療課題の最適化と同じではないことを分析的および実証的に示す。これは、大規模な実世界のアプリケーションにおける3つの異なるメタラーナーの最初の比較である。
論文参考訳（メタデータ） (2020-04-24T04:56:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。