論文の概要: Explainable Data Imputation using Constraints
- arxiv url: http://arxiv.org/abs/2205.04731v1
- Date: Tue, 10 May 2022 08:06:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-14 16:04:13.991537
- Title: Explainable Data Imputation using Constraints
- Title(参考訳): 制約を用いた説明可能なデータインプテーション
- Authors: Sandeep Hans, Diptikalyan Saha, Aniya Aggarwal
- Abstract要約: 異なるデータ型値とその関連制約に基づくデータ計算のための新しいアルゴリズムを提案する。
我々のアルゴリズムは、欠落した値を暗示するだけでなく、すべての計算に使用される属性の意義を記述した人間の読みやすい説明を生成する。
- 参考スコア(独自算出の注目度): 4.674053902991301
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data values in a dataset can be missing or anomalous due to mishandling or
human error. Analysing data with missing values can create bias and affect the
inferences. Several analysis methods, such as principle components analysis or
singular value decomposition, require complete data. Many approaches impute
numeric data and some do not consider dependency of attributes on other
attributes, while some require human intervention and domain knowledge. We
present a new algorithm for data imputation based on different data type values
and their association constraints in data, which are not handled currently by
any system. We show experimental results using different metrics comparing our
algorithm with state of the art imputation techniques. Our algorithm not only
imputes the missing values but also generates human readable explanations
describing the significance of attributes used for every imputation.
- Abstract(参考訳): データセット内のデータ値は、誤操作やヒューマンエラーによって欠落したり異常になったりします。
値の欠如でデータを分析するとバイアスが発生し、推論に影響を与える。
原理成分分析や特異値分解など、いくつかの分析手法は完全なデータを必要とする。
多くのアプローチは数値データを入力し、他の属性への属性の依存性を考慮しないものもあれば、人的介入とドメイン知識を必要とするものもある。
本稿では,データ型値の異なるデータ型値とその関連制約に基づくデータ計算のための新しいアルゴリズムを提案する。
アルゴリズムとアートインプテーション手法の状況を比較し,異なる指標を用いて実験結果を示す。
本アルゴリズムは, 欠落値だけでなく, あらゆる含意に使用される属性の意義を人間の可読性で記述した説明文を生成する。
関連論文リスト
- Iterative missing value imputation based on feature importance [6.300806721275004]
我々は特徴量を考慮した計算手法を考案した。
このアルゴリズムは、反復的に行列補完と特徴重要学習を行い、具体的には、特徴重要度を含む充足損失に基づいて行列補完を行う。
これらのデータセットの結果は,提案手法が既存の5つの計算アルゴリズムより優れていることを一貫して示している。
論文 参考訳(メタデータ) (2023-11-14T09:03:33Z) - Mean Estimation with User-level Privacy under Data Heterogeneity [54.07947274508013]
異なるユーザーは、非常に多くの異なるデータポイントを持っているかもしれない。
すべてのユーザが同じディストリビューションからサンプルを採取していると仮定することはできない。
本研究では,データの分布と量の両方でユーザデータが異なる異質なユーザデータの単純なモデルを提案する。
論文 参考訳(メタデータ) (2023-07-28T23:02:39Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - Imputation of missing values in multi-view data [0.24739484546803336]
多視点学習のための既存の累積ペナル化ロジスティック回帰アルゴリズムに基づく新しい計算法を提案する。
シミュレーションデータセットと実データアプリケーションにおいて,新しい計算手法の性能と既存計算アルゴリズムとの比較を行った。
論文 参考訳(メタデータ) (2022-10-26T05:19:30Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Multi-Source Causal Inference Using Control Variates [81.57072928775509]
本稿では,複数のデータソースから因果効果を推定するアルゴリズムを提案する。
理論的には、これはATE推定値の分散を減少させる。
このフレームワークを結果選択バイアスの下で観測データからの推論に適用する。
論文 参考訳(メタデータ) (2021-03-30T21:20:51Z) - IFGAN: Missing Value Imputation using Feature-specific Generative
Adversarial Networks [14.714106979097222]
本論文では,GAN(Feature-specific Generative Adversarial Networks)に基づく欠落値インピーダンスアルゴリズムIFGANを提案する。
特徴特異的生成器は欠落した値を誘発するように訓練され、判別器は観測された値と区別することが期待される。
IFGANは、様々な不足条件下で、現在の最先端アルゴリズムよりも優れている実生活データセットを実証的に示す。
論文 参考訳(メタデータ) (2020-12-23T10:14:35Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Establishing strong imputation performance of a denoising autoencoder in
a wide range of missing data problems [0.0]
トレーニングと計算の両方に一貫したフレームワークを開発します。
結果と最先端の計算手法を比較検討した。
開発されたオートエンコーダは、初期データ破損のあらゆる範囲において最小の誤差を得た。
論文 参考訳(メタデータ) (2020-04-06T12:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。