Fugu-MT 論文翻訳(概要): FCMI: Feature Correlation based Missing Data Imputation

論文の概要: FCMI: Feature Correlation based Missing Data Imputation

arxiv url: http://arxiv.org/abs/2107.00100v1
Date: Sat, 26 Jun 2021 13:35:33 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-04 19:59:33.211109
Title: FCMI: Feature Correlation based Missing Data Imputation
Title（参考訳）: FCMI:特徴相関に基づくミスデータインプット
Authors: Prateek Mishra, Kumar Divya Mani, Prashant Johri, Dikhsa Arya
Abstract要約: 本稿では,FCMIと呼ばれる相関関係に基づいて,データセットの欠落を補足する効率的な手法を提案する。提案アルゴリズムはデータセットの高相関属性を選択し,これらの属性を用いて回帰モデルを構築する。分類データセットと回帰データセットの両方で行った実験により,提案手法が既存の計算アルゴリズムより優れていることが示された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Processed data are insightful, and crude data are obtuse. A serious threat to data reliability is missing values. Such data leads to inaccurate analysis and wrong predictions. We propose an efficient technique to impute the missing value in the dataset based on correlation called FCMI (Feature Correlation based Missing Data Imputation). We have considered the correlation of the attributes of the dataset, and that is our central idea. Our proposed algorithm picks the highly correlated attributes of the dataset and uses these attributes to build a regression model whose parameters are optimized such that the correlation of the dataset is maintained. Experiments conducted on both classification and regression datasets show that the proposed imputation technique outperforms existing imputation algorithms.
Abstract（参考訳）: 処理されたデータは洞察力に富み、粗いデータは難解である。データ信頼性に対する深刻な脅威は、値の欠如である。このようなデータは不正確な分析と誤った予測につながる。 fcmi(feature correlation based missing data imputation)と呼ばれる相関に基づくデータセットの欠落値をインデュートする効率的な手法を提案する。私たちはデータセットの属性の相関について検討してきました。提案アルゴリズムはデータセットの高相関属性を選択し,これらの属性を用いてパラメータが最適化された回帰モデルを構築し,データセットの相関性を維持する。分類と回帰の両方の実験により,提案手法が既存の計算アルゴリズムより優れていることが示された。

関連論文リスト

Understanding Data Influence with Differential Approximation [63.817689230826595]
我々は,Diff-Inと呼ばれる連続学習ステップ間の影響の差を蓄積することにより,サンプルの影響を近似する新しい定式化を導入する。 2次近似を用いることで、これらの差分項を高精度に近似し、既存の手法で必要となるモデル凸性を排除した。 Diff-In は既存の影響推定器に比べて近似誤差が著しく低いことを示す。
論文参考訳（メタデータ） (2025-08-20T11:59:32Z)
CALF: A Conditionally Adaptive Loss Function to Mitigate Class-Imbalanced Segmentation [0.2902243522110345]
不均衡データセットは、医学診断のためのディープラーニング(DL)モデルのトレーニングにおいて課題となる。本稿では,DLトレーニングにおける不均衡データセットの条件を満たすために,新しい,統計的に駆動された条件適応型損失関数(CALF)を提案する。
論文参考訳（メタデータ） (2025-04-06T12:03:33Z)
DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文参考訳（メタデータ） (2025-02-22T08:53:39Z)
Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-12-12T18:28:55Z)
Approaching Metaheuristic Deep Learning Combos for Automated Data Mining [0.5419570023862531]
本研究では,メタヒューリスティック手法を従来の分類器やニューラルネットワークと組み合わせて自動データマイニングを行う手法を提案する。手書き文字認識のためのMNISTデータセットの実験を行った。根拠真理ラベル付きデータセットの検証精度は、これまで見つからなかった他のデータインスタンスのラベルを修正するのに不十分である、という実証的な観察がなされた。
論文参考訳（メタデータ） (2024-10-16T10:28:22Z)
DiffPuter: Empowering Diffusion Models for Missing Data Imputation [56.48119008663155]
本稿ではDiffPuterについて紹介する。DiffPuterは、データ計算の欠如に対する期待最大化(EM)アルゴリズムと組み合わせた、カスタマイズされた拡散モデルである。我々の理論的解析は、DiffPuterのトレーニングステップがデータ密度の最大推定値に対応することを示している。 DiffPuterは,最も競争力のある既存手法と比較して,MAEが6.94%,RMSEが4.78%向上した。
論文参考訳（メタデータ） (2024-05-31T08:35:56Z)
Efficient adjustment for complex covariates: Gaining efficiency with DOPE [56.537164957672715]
共変量によって表現される情報のサブセットを調整可能なフレームワークを提案する。理論的な結果に基づいて,平均処理効果(ATE)の効率的な評価を目的とした,デバイアスドアウトカム適応確率推定器(DOPE)を提案する。その結果,DOPE は様々な観測環境において ATE 推定のための効率的かつ堅牢な手法を提供することがわかった。
論文参考訳（メタデータ） (2024-02-20T13:02:51Z)
Iterative missing value imputation based on feature importance [6.300806721275004]
我々は特徴量を考慮した計算手法を考案した。このアルゴリズムは、反復的に行列補完と特徴重要学習を行い、具体的には、特徴重要度を含む充足損失に基づいて行列補完を行う。これらのデータセットの結果は,提案手法が既存の5つの計算アルゴリズムより優れていることを一貫して示している。
論文参考訳（メタデータ） (2023-11-14T09:03:33Z)
TRIAGE: Characterizing and auditing training data for improved regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。 TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。 TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文参考訳（メタデータ） (2023-10-29T10:31:59Z)
Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文参考訳（メタデータ） (2023-07-19T04:07:33Z)
Machine Learning Based Missing Values Imputation in Categorical Datasets [2.5611256859404983]
この研究では、分類データセットのギャップを埋めるための機械学習アルゴリズムの使用について検討した。 Error Correction Output Codesフレームワークを使用して構築されたアンサンブルモデルに重点が置かれた。大量のラベル付きデータの要求を含む、これらの奨励的な結果にもかかわらず、データ計算の欠如に対する深い学習には障害がある。
論文参考訳（メタデータ） (2023-06-10T03:29:48Z)
Utility Assessment of Synthetic Data Generation Methods [0.0]
完全合成データを生成する方法が,その実用性に相違があるかどうかを考察する。ボード上の他の方法よりもパフォーマンスがよい方法がいくつかあります。機械学習モデルのトレーニングに合成データを使用する場合、分類タスクに対して有望な結果が得られる。
論文参考訳（メタデータ） (2022-11-23T11:09:52Z)
Rethinking Data Heterogeneity in Federated Learning: Introducing a New Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。私たちの観察は直感的である。私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文参考訳（メタデータ） (2022-09-30T17:15:19Z)
MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。 MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文参考訳（メタデータ） (2021-11-04T22:38:18Z)
Doing Great at Estimating CATE? On the Neglected Assumptions in Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文参考訳（メタデータ） (2021-07-28T13:21:27Z)
Missing Data Imputation using Optimal Transport [43.14084843713895]
最適輸送距離を利用して基準を定量化し、損失関数に変換し、欠落したデータ値をインプットする。エンド・ツー・エンド・ラーニングを用いてこれらの損失を最小限に抑えるための実践的手法を提案する。これらの実験により、OTベースの手法は、欠落した値の高い割合であっても、最先端の計算手法と一致しているか、性能が良くないことを示す。
論文参考訳（メタデータ） (2020-02-10T15:23:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。