論文の概要: FCMI: Feature Correlation based Missing Data Imputation
- arxiv url: http://arxiv.org/abs/2107.00100v1
- Date: Sat, 26 Jun 2021 13:35:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-04 19:59:33.211109
- Title: FCMI: Feature Correlation based Missing Data Imputation
- Title(参考訳): FCMI:特徴相関に基づくミスデータインプット
- Authors: Prateek Mishra, Kumar Divya Mani, Prashant Johri, Dikhsa Arya
- Abstract要約: 本稿では,FCMIと呼ばれる相関関係に基づいて,データセットの欠落を補足する効率的な手法を提案する。
提案アルゴリズムはデータセットの高相関属性を選択し,これらの属性を用いて回帰モデルを構築する。
分類データセットと回帰データセットの両方で行った実験により,提案手法が既存の計算アルゴリズムより優れていることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Processed data are insightful, and crude data are obtuse. A serious threat to
data reliability is missing values. Such data leads to inaccurate analysis and
wrong predictions. We propose an efficient technique to impute the missing
value in the dataset based on correlation called FCMI (Feature Correlation
based Missing Data Imputation). We have considered the correlation of the
attributes of the dataset, and that is our central idea. Our proposed algorithm
picks the highly correlated attributes of the dataset and uses these attributes
to build a regression model whose parameters are optimized such that the
correlation of the dataset is maintained. Experiments conducted on both
classification and regression datasets show that the proposed imputation
technique outperforms existing imputation algorithms.
- Abstract(参考訳): 処理されたデータは洞察力に富み、粗いデータは難解である。
データ信頼性に対する深刻な脅威は、値の欠如である。
このようなデータは不正確な分析と誤った予測につながる。
fcmi(feature correlation based missing data imputation)と呼ばれる相関に基づくデータセットの欠落値をインデュートする効率的な手法を提案する。
私たちはデータセットの属性の相関について検討してきました。
提案アルゴリズムはデータセットの高相関属性を選択し,これらの属性を用いてパラメータが最適化された回帰モデルを構築し,データセットの相関性を維持する。
分類と回帰の両方の実験により,提案手法が既存の計算アルゴリズムより優れていることが示された。
関連論文リスト
- Efficient adjustment for complex covariates: Gaining efficiency with
DOPE [56.537164957672715]
共変量によって表現される情報のサブセットを調整可能なフレームワークを提案する。
理論的な結果に基づいて,平均処理効果(ATE)の効率的な評価を目的とした,デバイアスドアウトカム適応確率推定器(DOPE)を提案する。
その結果,DOPE は様々な観測環境において ATE 推定のための効率的かつ堅牢な手法を提供することがわかった。
論文 参考訳(メタデータ) (2024-02-20T13:02:51Z) - Group Distributionally Robust Dataset Distillation with Risk
Minimization [18.07189444450016]
本稿では,クラスタリングとリスク尺度の最小化を組み合わせ,DDを遂行する損失を最小化するアルゴリズムを提案する。
数値実験により,その有効一般化と部分群間のロバスト性を示す。
論文 参考訳(メタデータ) (2024-02-07T09:03:04Z) - Iterative missing value imputation based on feature importance [6.300806721275004]
我々は特徴量を考慮した計算手法を考案した。
このアルゴリズムは、反復的に行列補完と特徴重要学習を行い、具体的には、特徴重要度を含む充足損失に基づいて行列補完を行う。
これらのデータセットの結果は,提案手法が既存の5つの計算アルゴリズムより優れていることを一貫して示している。
論文 参考訳(メタデータ) (2023-11-14T09:03:33Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Utility Assessment of Synthetic Data Generation Methods [0.0]
完全合成データを生成する方法が,その実用性に相違があるかどうかを考察する。
ボード上の他の方法よりもパフォーマンスがよい方法がいくつかあります。
機械学習モデルのトレーニングに合成データを使用する場合、分類タスクに対して有望な結果が得られる。
論文 参考訳(メタデータ) (2022-11-23T11:09:52Z) - Rethinking Data Heterogeneity in Federated Learning: Introducing a New
Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。
私たちの観察は直感的である。
私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文 参考訳(メタデータ) (2022-09-30T17:15:19Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - RIFLE: Imputation and Robust Inference from Low Order Marginals [10.082738539201804]
我々は,不備なデータの存在下での回帰と分類のための統計的推論フレームワークを開発する。
我々のフレームワークであるRIFLEは、基礎となるデータ分布の低次モーメントを対応する信頼区間で推定し、分布的に堅牢なモデルを学ぶ。
実験の結果,RIFLEは,欠落値の割合が高い場合や,データポイント数が比較的小さい場合には,他のベンチマークアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-09-01T23:17:30Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - Missing Data Imputation using Optimal Transport [43.14084843713895]
最適輸送距離を利用して基準を定量化し、損失関数に変換し、欠落したデータ値をインプットする。
エンド・ツー・エンド・ラーニングを用いてこれらの損失を最小限に抑えるための実践的手法を提案する。
これらの実験により、OTベースの手法は、欠落した値の高い割合であっても、最先端の計算手法と一致しているか、性能が良くないことを示す。
論文 参考訳(メタデータ) (2020-02-10T15:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。