論文の概要: Explainable Data Imputation using Constraints
- arxiv url: http://arxiv.org/abs/2205.04731v1
- Date: Tue, 10 May 2022 08:06:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-14 16:04:13.991537
- Title: Explainable Data Imputation using Constraints
- Title(参考訳): 制約を用いた説明可能なデータインプテーション
- Authors: Sandeep Hans, Diptikalyan Saha, Aniya Aggarwal
- Abstract要約: 異なるデータ型値とその関連制約に基づくデータ計算のための新しいアルゴリズムを提案する。
我々のアルゴリズムは、欠落した値を暗示するだけでなく、すべての計算に使用される属性の意義を記述した人間の読みやすい説明を生成する。
- 参考スコア(独自算出の注目度): 4.674053902991301
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data values in a dataset can be missing or anomalous due to mishandling or
human error. Analysing data with missing values can create bias and affect the
inferences. Several analysis methods, such as principle components analysis or
singular value decomposition, require complete data. Many approaches impute
numeric data and some do not consider dependency of attributes on other
attributes, while some require human intervention and domain knowledge. We
present a new algorithm for data imputation based on different data type values
and their association constraints in data, which are not handled currently by
any system. We show experimental results using different metrics comparing our
algorithm with state of the art imputation techniques. Our algorithm not only
imputes the missing values but also generates human readable explanations
describing the significance of attributes used for every imputation.
- Abstract(参考訳): データセット内のデータ値は、誤操作やヒューマンエラーによって欠落したり異常になったりします。
値の欠如でデータを分析するとバイアスが発生し、推論に影響を与える。
原理成分分析や特異値分解など、いくつかの分析手法は完全なデータを必要とする。
多くのアプローチは数値データを入力し、他の属性への属性の依存性を考慮しないものもあれば、人的介入とドメイン知識を必要とするものもある。
本稿では,データ型値の異なるデータ型値とその関連制約に基づくデータ計算のための新しいアルゴリズムを提案する。
アルゴリズムとアートインプテーション手法の状況を比較し,異なる指標を用いて実験結果を示す。
本アルゴリズムは, 欠落値だけでなく, あらゆる含意に使用される属性の意義を人間の可読性で記述した説明文を生成する。
- 全文 参考訳へのリンク
関連論文リスト
- Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Combining Observational and Randomized Data for Estimating Heterogeneous
Treatment Effects [82.20189909620899]
不均一な治療効果を推定することは、多くの領域において重要な問題である。
現在、現存するほとんどの作品は観測データにのみ依存している。
本稿では、大量の観測データと少量のランダム化データを組み合わせることで、不均一な処理効果を推定する。
論文 参考訳(メタデータ) (2022-02-25T18:59:54Z) - Fairness without Imputation: A Decision Tree Approach for Fair
Prediction with Missing Values [4.973456986972679]
欠落した値を持つデータを用いて機械学習モデルを訓練する際の公平性の懸念について検討する。
本稿では,個別の計算処理や学習プロセスを必要としない決定木に基づく統合的アプローチを提案する。
提案手法は,有意なデータセットに適用した既存のフェアネス介入手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-09-21T20:46:22Z) - Multiple imputation and test-wise deletion for causal discovery with
incomplete cohort data [0.0]
因果探索アルゴリズムは観測データから因果グラフを推定する。
最近まで、これらのアルゴリズムは欠落した値を扱うことができなかった。
テストワイド削除と多重計算の2つの方法について検討する。
論文 参考訳(メタデータ) (2021-08-30T15:51:30Z) - FCMI: Feature Correlation based Missing Data Imputation [0.0]
本稿では,FCMIと呼ばれる相関関係に基づいて,データセットの欠落を補足する効率的な手法を提案する。
提案アルゴリズムはデータセットの高相関属性を選択し,これらの属性を用いて回帰モデルを構築する。
分類データセットと回帰データセットの両方で行った実験により,提案手法が既存の計算アルゴリズムより優れていることが示された。
論文 参考訳(メタデータ) (2021-06-26T13:35:33Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Multi-Source Causal Inference Using Control Variates [81.57072928775509]
本稿では,複数のデータソースから因果効果を推定するアルゴリズムを提案する。
理論的には、これはATE推定値の分散を減少させる。
このフレームワークを結果選択バイアスの下で観測データからの推論に適用する。
論文 参考訳(メタデータ) (2021-03-30T21:20:51Z) - Rissanen Data Analysis: Examining Dataset Characteristics via
Description Length [78.42578316883271]
特定の能力が与えられたデータの正確なモデルを達成するのに役立つかどうかを判断する手法を提案する。
最小プログラム長は計算不可能であるため,ラベルの最小記述長(MDL)をプロキシとして推定する。
我々は、mdlの父にちなんで、rissanen data analysis (rda) と呼ぶ。
論文 参考訳(メタデータ) (2021-03-05T18:58:32Z) - IFGAN: Missing Value Imputation using Feature-specific Generative
Adversarial Networks [14.714106979097222]
本論文では,GAN(Feature-specific Generative Adversarial Networks)に基づく欠落値インピーダンスアルゴリズムIFGANを提案する。
特徴特異的生成器は欠落した値を誘発するように訓練され、判別器は観測された値と区別することが期待される。
IFGANは、様々な不足条件下で、現在の最先端アルゴリズムよりも優れている実生活データセットを実証的に示す。
論文 参考訳(メタデータ) (2020-12-23T10:14:35Z) - Artificial Neural Networks to Impute Rounded Zeros in Compositional Data [0.0]
近年, 深層学習の手法が普及しているが, 構成データ分析には至っていない。
本稿では,人工ニューラルネットワークに基づく円周零点のインプット法を提案する。
annは、適度なサイズで丸められたゼロのデータセットを暗示するときに、競争力があるか、あるいはパフォーマンスが良いことを示すことができる。
論文 参考訳(メタデータ) (2020-12-18T15:31:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。