論文の概要、ライセンス

# (参考訳) 制約を用いた説明可能なデータインプテーション [全文訳有]

Explainable Data Imputation using Constraints ( http://arxiv.org/abs/2205.04731v1 )

ライセンス: CC BY 4.0
Sandeep Hans, Diptikalyan Saha, Aniya Aggarwal(参考訳) データセット内のデータ値は、誤操作やヒューマンエラーによって欠落したり異常になったりします。 値の欠如でデータを分析するとバイアスが発生し、推論に影響を与える。 原理成分分析や特異値分解など、いくつかの分析手法は完全なデータを必要とする。 多くのアプローチは数値データを入力し、他の属性への属性の依存性を考慮しないものもあれば、人的介入とドメイン知識を必要とするものもある。 本稿では,データ型値の異なるデータ型値とその関連制約に基づくデータ計算のための新しいアルゴリズムを提案する。 アルゴリズムとアートインプテーション手法の状況を比較し,異なる指標を用いて実験結果を示す。 本アルゴリズムは, 欠落値だけでなく, あらゆる含意に使用される属性の意義を人間の可読性で記述した説明文を生成する。

Data values in a dataset can be missing or anomalous due to mishandling or human error. Analysing data with missing values can create bias and affect the inferences. Several analysis methods, such as principle components analysis or singular value decomposition, require complete data. Many approaches impute numeric data and some do not consider dependency of attributes on other attributes, while some require human intervention and domain knowledge. We present a new algorithm for data imputation based on different data type values and their association constraints in data, which are not handled currently by any system. We show experimental results using different metrics comparing our algorithm with state of the art imputation techniques. Our algorithm not only imputes the missing values but also generates human readable explanations describing the significance of attributes used for every imputation.
公開日: Tue, 10 May 2022 08:06:26 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
2 2 0 2 y a M 0 1 2 2 0 2 y a m 0 1 である。 0.53
] I A . s c [ 【私】 A! sc [ 0.50
1 v 1 3 7 4 0 1 v 1 3 7 4 0 0.42
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Explainable Data Imputation using Constraints 制約を用いた説明可能なデータインプテーション 0.63
Sandeep Hans shans001@in.ibm.com サンディープハンス shans001@in.ibm.com 0.29
Diptikalyan Saha diptsaha@in.ibm.com Diptikalyan Saha diptsaha@in.ibm.com 0.35
Aniya Aggarwal aniyaagg@in.ibm.com Aniya Aggarwal aniyaagg@in.ibm.com 0.35
IBM Research IBM Research IBMの研究 IBMの研究 0.85
IBM Research Abstract Data values in a dataset can be missing or anomalous due to mishandling or human error. IBMの研究 概要 データセット内のデータ値は、誤操作やヒューマンエラーによって欠落したり異常になったりします。 0.64
Analysing data with missing values can create bias and affect the inferences. 値の欠如でデータを分析するとバイアスが発生し、推論に影響を与える。 0.54
Several analysis methods, such as principle components analysis or singular value decomposition, require complete data. 原理成分分析や特異値分解など、いくつかの分析手法は完全なデータを必要とする。 0.76
Many approaches impute numeric data and some do not consider dependency of attributes on other attributes, while some require human intervention and domain knowledge. 多くのアプローチは数値データを入力し、他の属性への属性の依存性を考慮しないものもあれば、人的介入とドメイン知識を必要とするものもある。 0.65
We present a new algorithm for data imputation based on different data type values and their association constraints in data, which are not handled currently by any system. 本稿では,データ型値の異なるデータ型値とその関連制約に基づくデータ計算のための新しいアルゴリズムを提案する。
訳抜け防止モード: 異なるデータ型値に基づくデータ計算のための新しいアルゴリズムを提案する。 それらの関連制約は、現在どのシステムでも処理されていない。
0.80
We show experimental results using different metrics comparing our algorithm with state-of-the-art imputation techniques. 我々は,我々のアルゴリズムと最先端の計算手法を比較した実験結果を示す。 0.68
Our algorithm not only imputes the missing values but also generates human readable explanations describing the significance of attributes used for every imputation. 本アルゴリズムは, 欠落値だけでなく, あらゆる含意に使用される属性の意義を人間の可読性で記述した説明文を生成する。 0.69
1 Introduction Many real-world datasets may contain missing values for various reasons. 1 はじめに 多くの現実世界のデータセットは、様々な理由で欠落した値を含む可能性がある。 0.46
Training a model with a dataset that has a lot of missing values can drastically impact the machine learning model’s quality. たくさんの値が欠けているデータセットでモデルをトレーニングすることは、機械学習モデルの品質に大きな影響を与えます。 0.83
Some algorithms assume that all values are available and hold meaningful value. 一部のアルゴリズムでは、すべての値が利用可能で有意義な値であると仮定している。 0.51
One way to handle this problem is to get rid of all the observations having any value missing. この問題に対処するひとつの方法は、価値が欠けているすべての観察を取り除くことです。 0.72
However, it involves the risk of losing data points with valuable information. しかし、それは貴重な情報でデータポイントを失うリスクを伴う。 0.70
The best strategy is to impute these missing values. 最善の戦略は、これらの欠落した価値を妨害することだ。 0.50
However, most of the imputation techniques impute values for an attribute that may not conform with other attributes. しかし、ほとんどのインプテーション技術は、他の属性に適合しない可能性のある属性の値をインプットする。 0.65
For example, while imputing salary for an employee, the technique may not consider the designation of the employee and thus, impute a non-conforming value w.r.t designation attribute although the value is valid . 例えば、従業員に給与を課す場合、その技術は従業員の指定を考慮せず、その値が有効であるにもかかわらず、非構成値w.r.t指定属性を付与する。 0.64
Some naive solutions for this problem are removing the rows containing missing values, substituting the missing values with mean or median of non-missing values of the attribute, or most frequent value for categorical data. この問題に対するナイーブな解決策は、欠落した値を含む行の削除、属性の許容されない値の平均または中央値の欠落値の置換、あるいはカテゴリデータの最も頻繁な値である。 0.65
There are certain problems with these techniques. これらの技術にはある種の問題がある。 0.60
For example, if you remove rows containing missing values other algorithms will throw errors complaining about the missing values. 例えば、欠落値を含む行を削除すると、他のアルゴリズムは欠落値について不平を言うエラーを投げます。 0.58
In that case, you will need to handle the missing data and その場合、不足しているデータを扱う必要があります。 0.73
1 1 0.42
英語(論文から抽出)日本語訳スコア
clean it before feeding it to the algorithm. アルゴリズムに渡す前にきれいにしなさい。 0.59
Rows of a data are often not complete, especially when dealing with heterogeneous data sources. 特に異種データソースを扱う場合、データの行は完成しないことが多い。 0.72
Discarding an entire row of a table if just one column has a missing value would often discard a substantial part of the data. もし1つの列に欠けている値がある場合、テーブルの全行を破棄することは、しばしばデータのかなりの部分を破棄する。
訳抜け防止モード: 1つの列が欠落している場合にテーブルの行全体を識別する 多くの場合、データの一部を破棄します。
0.77
Substituting the missing value of a numerical attribute by mean/median of non-missing values of the attribute doesn’t factor the correlations between features. 属性の欠落値の平均/中間値による数値属性の欠落値の置換は、特徴間の相関を左右しない。 0.83
It only works on the column level and gives poor results on encoded categorical features. カラムレベルでのみ動作し、エンコードされたカテゴリ機能では結果が悪い。 0.67
It is also not very accurate, can conflict with other attributes and doesn’t account for the uncertainty in the imputations. それはまた、それほど正確ではなく、他の属性と矛盾する可能性があり、インプテーションの不確実性も説明できない。 0.58
Substituting the missing value of a categorical attribute by most frequent value of the attribute also doesn’t factor the correlations between features and can introduce bias in the data. 属性の最も頻繁な値によってカテゴリ属性の欠落値を構成することも、特徴間の相関を考慮せず、データにバイアスをもたらす可能性がある。 0.79
In this paper, we focus on given a dataset with missing values, substitute the missing data with the values which conforms with the rest of the data. 本稿では、欠落した値を持つデータセットに焦点をあて、欠落したデータを残りのデータに対応する値に置き換える。 0.72
Our technique inherently provides explanations for each imputation done, which can be used further to explain the results of the task at hand like drop in accuracy of an AI model or increase in bias in the data. この手法は,AIモデルの精度の低下やデータのバイアスの増加など,手前のタスクの結果を説明するために使用することができる。
訳抜け防止モード: 本手法は,aiモデルの精度の低下など,手元のタスクの結果を説明するために使用できる各インプテーションに対して,本質的に説明を提供するものである。 データのバイアスを増加させます
0.74
We present an algorithm for data imputation based on different data type values and their association constraints in data, which are not handled currently by any system. 本稿では,データ型値の異なるデータ型値とその関連制約に基づくデータ計算アルゴリズムを提案する。
訳抜け防止モード: 異なるデータ型値に基づくデータ計算アルゴリズムを提案する。 そして、その関連制約は、現在どのシステムでも処理されていないデータである。
0.81
We also show experimental results comparing our algorithm with state-of-the-art imputation techniques. また,本アルゴリズムを最先端インプテーション手法と比較した実験結果を示す。 0.65
Our algorithm not only imputes the missing values but also generates human readable explanations for each imputation, describing the significance of other attributes used for the imputation. 提案アルゴリズムは, 欠落した値だけでなく, 計算に用いた他の属性の意義を記述し, 人間の読みやすい説明を生成する。 0.83
2 Related Work Most research in the field of imputation focuses on imputing missing values in matrices, that is imputation of numerical values from other numerical values. 2 関連作業 計算の分野におけるほとんどの研究は、他の数値からの数値の計算である行列の欠落値を計算することに焦点を当てている。 0.70
Popular approaches include k-nearest neighbors (KNN) [1], multivariate imputation by chained equations (MICE) [7], matrix factorization [6, 9, 12] or deep learning methods [3, 2, 5, 15, 8] . 一般的なアプローチとしては、k-nearest neighbors (KNN) [1]、連鎖方程式による多変量計算 [7]、行列分解 [6, 9, 12]、あるいはディープラーニング [3, 2, 5, 15, 8] がある。
訳抜け防止モード: 一般的なアプローチとしては、k-最も近い隣人 (KNN ) [ 1 ] がある。 連鎖方程式 (MICE ) [7 ] による多変量計算 行列分解 [6, 9, 12 ] あるいはディープラーニング [3] 2 , 5 , 15 , 8 ] .
0.76
While some recent work addresses imputation for more heterogeneous data types [11, 14, 10], heterogeneous in those studies refers to binary, ordinal or categorical variables, which can be easily transformed into numerical representations. 最近の研究では、より異質なデータ型 [11, 14, 10] に対するインプテーションに対処しているが、それらの研究における不均一性は、バイナリ変数、順序変数、あるいはカテゴリ変数を指しており、簡単に数値表現に変換できる。 0.63
K-nearest neighbors (KNN) based data imputation [1] replaces the missing data for a given variable by averaging (non-missing) values of its neighbors. K-nearest neighbors (KNN) ベースのデータ計算 [1] は、ある変数の欠落したデータを、その隣人の平均値(非欠落値)で置き換える。 0.75
Fuzzy K-means based data imputation: an extension of KNN based on fuzzy K-means clustering This works for numerical data only. ファジィK平均に基づくデータ計算: ファジィK平均クラスタリングに基づくKNNの拡張。 0.51
For categorical data, some papers use data transformation, but it introduces bias. 分類データには、データ変換を使う論文もあるが、バイアスが伴う。 0.75
This can be quite slow with large datasets これは大きなデータセットではかなり遅くなります 0.70
Multiple Imputations by Chained Equations (MICE) [7] is an iterative algorithm based on chained equations that uses an imputation model specified separately for each variable and involving the other variables as predictors. MICE (Multiple Imputations by Chained Equations) [7] は、各変数ごとに別々に指定され、他の変数を予測子として含む、連鎖方程式に基づく反復アルゴリズムである。 0.85
This work only considers numerical values on small data sets. この研究は、小さなデータセットの数値のみを考慮する。 0.75
Imputations using Deep Learning (Datawig) [3, 2] is a library that learns Deep Learning (Datawig) [3, 2] を用いた計算は学習するライブラリである 0.88
2 2 0.42
英語(論文から抽出)日本語訳スコア
Machine Learning models using Deep Neural Networks to impute missing values. Deep Neural Networksを用いた機械学習モデルにより、欠落した値をインプットする。 0.67
It also supports both CPU and GPU for training and uses feature encoder to handle categorical data. トレーニングにはcpuとgpuの両方をサポートし、カテゴリデータの処理にはフィーチャーエンコーダを使用する。 0.65
This method works well with categorical and nonnumerical features, but needs the columns as input that contain information about the target column to be be imputed. このメソッドはカテゴリ的および非数値的特徴でうまく機能するが、目的とする列に関する情報を含む入力として列が必要となる。 0.74
This is quite slow, especially with large datasets. これは、特に大規模なデータセットでは、非常に遅い。 0.64
NADEEF: A commodity data cleaning system [4] allows the users to specify multiple types of data quality rules, which uniformly define what is wrong with the data and (possibly) how to repair it through writing code that implements predefined classes. NADEEF:コモディティなデータクリーニングシステム [4] では、ユーザが複数のタイプのデータ品質ルールを指定できます。
訳抜け防止モード: NADEEF:コモディティなデータクリーニングシステム [4 ] は、ユーザが複数のデータ品質ルールを指定できるようにします。 データに何が間違っているのかを 均一に定義し 事前に定義されたクラスを実装するコードを書くことで、それを修復する。
0.76
Such rule based systems achieve high precision for imputation, but this often requires a domain expert in the loop to generate and maintain the set of rules to apply. このようなルールベースのシステムは命令の精度が高いが、適用するルールの集合を生成し維持するためには、しばしばループのドメインエキスパートを必要とする。 0.76
Other data imputation techniques based on eigen values include singular value decompositions and bayesian principal component analysis. その他の固有値に基づくデータ計算手法には特異値分解やベイズ主成分分析がある。 0.75
The main drawback of all these techniques work well with numerical data only. これらのテクニックの主な欠点は、数値データだけでうまく機能する。 0.72
3 Imputation Model In this section, we discuss our overall solution approach spread across the subsequent subsections. 3 計算モデル この節では、以下のセクションにまたがる全体的なソリューションアプローチについて論じる。 0.60
The first sub-section discusses our constraints inference technique, which computes constraints from the given data. 第1節では、与えられたデータから制約を計算する制約推論手法について論じる。 0.66
The second subsection discusses our imputation technique using the set of inferred constraints, thereby also generating human-readable explanations for better understanding. 第2節では,推論制約の集合を用いた計算手法について論じるとともに,より理解しやすい説明文を生成する。 0.61
3.1 Constraints Inference The first step in imputing the missing values is understanding each column in the given data and finding correlations between different type of columns. 3.1 制約推論 欠落した値を出力する最初のステップは、与えられたデータ内の各列を理解し、異なるタイプの列間の相関を見つけることである。
訳抜け防止モード: 3.1 制約推論 欠落した値を示す最初のステップは 与えられたデータ内の各列を理解し、異なるタイプの列間の相関を見つけます。
0.74
We have defined seven datatypes for columns - EMPTY, DATE, TEXT, CAT TEXT, NUMERIC, CAT NUM and FLOAT. 我々は,カラムに対して,EMPTY,DATE,TEXT,CAT TEXT,NUMERIC,CAT NUM,FLOATの7つのデータ型を定義した。 0.73
If a column does not have any value, the datatype for that column is EMPTY; if it contains date or time specific data, the datatype is DATE; if it contains string values, the datatype is TEXT or CAT TEXT; if it contains integer values, the datatype is NUM or CAT NUM; if it contains float values, the datatype is FLOAT. もし列が値を持っていなければ、その列のデータ型はEMPTY、データ型は日付または時間固有のデータを含む場合、DATE、データ型は文字列値を含む場合、TEXTまたはCAT TEXT、データ型が整数値を含む場合はNUMまたはCAT NUM、データ型がフロート値を含む場合、データ型はFLOATである。 0.87
Most of these datatypes are standard. これらのデータ型のほとんどは標準です。 0.68
The interesting and non-standard ones are CAT TEXT and CAT NUM. 興味深く非標準なものはcat textとcat numである。 0.66
These datatypes cater to columns with very few unique values. これらのデータ型は、非常に少ないユニークな値の列に対応します。 0.56
For example, gender is a column with string values contains only two or three unique values while person-name is a column with string values but the number of unique values can be of the order of the number of values in the column. 例えば、性別は文字列の値が2つか3つの一意な値しか持たない列であり、person-nameは文字列の値を持つ列であるが、一意な値の数は列内の値の順番である。 0.77
In order to differentiate between these two columns, we have defined separate datatypes - TEXT and CAT TEXT. これら2つの列を区別するために、TEXTとCAT TEXTという2つのデータタイプを定義しました。 0.67
Similarly we differentiate between NUMERIC and CAT NUM. 同様に、NUMERICとCAT NUMを区別する。 0.81
This distinction helps not only in finding specific constraints at the column level, but also in finding interesting associations. この区別は、カラムレベルで特定の制約を見つけるだけでなく、興味深い関連を見つけるのに役立つ。 0.75
For example, salary of employees may have different distributions based on the gender value. 例えば、従業員の給与は性別によって異なる分布を持つことがある。 0.83
3 3 0.42
英語(論文から抽出)日本語訳スコア
Algorithm 1: Constraints Inference 1 function get constraints(data): 2 アルゴリズム1:制約推論 1 関数 get constraints(data): 2 0.76
3 datatypes = get datatypes(data) col constraints = get column constraints(data, datatypes) associations = get associations(data, datatypes) 3 datatypes = get datatypes(data) col constraints = get column constraints(data, datatypes) associations = get associations(data, datatypes) 0.43
4 5 function get datatypes(column data): 6 4 5 function get datatypes(カラムデータ): 6 0.82
num values = size(column data) num uniques values = size(unique(column data))) if num values = 0 then return EMPTY if has real values(column data) then return FLOAT if has date values(column data) then return DATE if num unique values ¡ max(log (num values), 20) then num value = size(column data) num uniques value = size(unique(column data)) if num value = 0 then return EMPTY if real value(column data) then return FLOAT if having date value(column data) then then return DATE if num unique value > max(log(num value), 20) then return DATE
訳抜け防止モード: num value = size(column data ) num uniques value = size(unique(column data ) ) ) if num values = 0 then return empty if have real values(column data ) then return float if have date values(column data ) then return date if num unique values \ max(log(num values ) ) が返される。 20)
0.84
7 8 9 10 11 7 8 9 10 11 0.43
12 13 14 15 12 13 14 15 0.53
16 17 18 19 16 17 18 19 0.43
20 21 22 26 20 21 22 26 0.43
27 28 29 30 27 28 29 30 0.43
31 32 33 34 31 32 33 34 0.42
35 36 37 38 35 36 37 38 0.43
if has int values(column data) then int値(カラムデータ)がある場合 0.72
return CAT NUM CAT NUM を返す 0.88
else end else その他 終わり その他 0.64
return CAT TEXT CAT TEXT を返す 0.90
if has int values(column data) then int値(カラムデータ)がある場合 0.72
return NUMERIC return numeric を返します。 0.34
else end return TEXT その他 終わり テキストを返します 0.62
end 23 24 function get column constraints(data): 25 終わり 23 24 関数 get カラム制約(データ): 25 0.72
foreach column c in data do dt = get datatype(c.data) if dt ∈ (CAT NUM, CAT TEXT) then else if dt ∈ (NUMERIC, FLOAT) then foreach column c in data do dt = get datatype(c.data) if dt ∈ (CAT NUM, CAT TEXT) then else if dt ∈ (NUMERIC, FLOAT)
訳抜け防止モード: data do dt = get datatype(c.data ) if dt ∈ (cat num, if dt ∈ (cat num) dt ∈ ( numeric , float ) ならば、dt ∈ ( numeric , float ) である。
0.70
c.frequency = frequency distribution(c.value s) c.周波数=周波数分布(c.値) 0.59
c.min = min(c.values) c.max = max(c.values) c.mean = mean(c.values) c.dist = distribution(c.value s) c.min = min(c.values) c.max = max(c.values) c.mean = mean(c.values) c.dist = distribution(c.value s) 0.36
else if dt = DATE then その他 dt = date の場合 0.66
c.mindate = mindate(c.values) c.maxdate = maxdate(c.values) c.dataformat = get format(c.values) c.mindate = mindate(c.values) c.maxdate = maxdate(c.values) c.dataformat = get format(c.values) 0.37
end For each column, we first find out the datatype that the column data caters to and then find the constraints based on the datatype. 終わり 各列について、まず列データが提供するデータ型を見つけ、それからデータ型に基づいて制約を見つけます。 0.74
We have defined column level constraints for each column depending on the datatype of that column. カラムのデータタイプに応じて、各カラムに対するカラムレベルの制約を定義しました。 0.69
The column level constraints for these datatypes include min, max, mean and distribution for NUMERIC, CAT NUM and FLOAT columns; mindate, maxdate and format for date columns; and frequency distribution for CAT NUM and CAT TEXT columns. これらのデータ型に対する列レベルの制約には、NUMERIC、CAT NUM、FLOATカラムの最小、最大、平均および分布、日付列のマインドレート、最大、フォーマット、CAT NUMおよびCAT TEXTカラムの周波数分布が含まれる。 0.85
In addition to constraints for each columns, we have also defined multicolumn constraints, called associations, between each pair of columns depending on their datatypes. また,各列に対する制約に加えて,各列間の結合と呼ばれる複数列制約を,そのデータ型に応じて定義した。 0.79
The associations are - CAT-CAT , CAT-NUM , CATTEXT , NUM-NUM , CAT-NUM-NUM and DATE-DATE . 関連団体は、CAT-CAT、CAT-NUM、CATTEXT、NUM-NUM、CAT-NUM-NUM、DATE-DATEである。
訳抜け防止モード: 団体はCAT - CAT, CAT - NUM。 CATTEXT、NUM、NUM、CAT、NUM DATE - DATE。
0.63
All these associations, except for CAT-NUM-NUM , describe different type of relations between two columns. CAT-NUM-NUMを除くこれらの関連は、2つの列間の異なるタイプの関係を記述する。 0.63
CAT-NUM-NUM describes relations between two NUMERIC or FLOAT columns depending on values in a categorical column. CAT-NUM-NUMは、カテゴリ列の値に依存する2つのNUMERIC列またはFLOAT列の関係を記述する。 0.61
Each association has a source column and a target column. 各アソシエーションはソース列とターゲット列を有する。 0.62
The associations are shown in Table 1. 表1に関連性を示す。 0.66
4 4 0.42
英語(論文から抽出)日本語訳スコア
Algorithm 2: Constraints Inference - Associations 1 function get associations(data): 2 アルゴリズム2:制約推論 - associations 1 function get associations(data): 2 0.76
association list = empty foreach columns c1, c2 in data do association list = empty foreach columns c1, c2 in data do 0.49
3 4 5 6 7 8 3 4 5 6 7 8 0.43
9 10 11 12 9 10 11 12 0.43
13 14 15 16 13 14 15 16 0.53
17 18 19 20 17 18 19 20 0.43
21 22 23 24 21 22 23 24 0.43
25 26 27 28 25 26 27 28 0.43
29 30 31 32 29 30 31 32 0.42
33 34 35 36 33 34 35 36 0.42
37 38 39 40 37 38 39 40 0.43
41 association a a.source = c1 a.target = c2 dt1 = get datatype(c1) dt2 = get datatype(c2) if dt1 ∈ (CAT NUM, CAT CAT) then 41 a.source = c1 a.target = c2 dt1 = get datatype(c1) dt2 = get datatype(c2) if dt1 ∈ (CAT NUM, CAT CAT) 0.44
if dt2 ∈ (CAT NUM, CAT CAT) then dt2 ∈ (cat num, cat cat) ならば 0.77
a.type = CAT-CAT foreach v in c1 do a.type = CAT-CAT foreach v in c1 do 0.38
target vals = get target vals(v) a.src value = v a.frequency = get freq(target vals) association list.add(a) target vals = get target vals(v) a.src value = v a. frequency = get freq(target vals) association list.add(a) 0.48
end else if dt2 ∈ (NUMERIC, FLOAT) then 終わり その他 dt2 ∈ (数値,浮動小数点) ならば 0.64
a.type = CAT-NUM foreach v in c1 do a.type = CAT-NUM foreach v in c1 do 0.38
target vals = get target vals(v, c2) a.src value = v a.dist, a.error = get dist(target values) association list.add(a) target vals = get target vals(v, c2) a.src value = v a.dist, a.error = get dist(target values) association list.add(a) 0.46
end else if dt1 ∈ (NUMERIC, FLOAT) then if dt2 ∈ (NUMERIC, FLOAT) then 終わり dt1 ∈ (NUMERIC, FLOAT) ならば dt2 ∈ (NUMERIC, FLOAT) ならば 0.76
a.type = NUM-NUM a.poly, a.error = get polynomial(c1, c2) association list.add(a) foreach category column c3 in data do a.type = NUM-NUM a.poly, a.error = get polynomial(c1, c2) association list.add(a) foreach category column c3 in data do 0.40
a.type = CAT-NUM-NUM a.catcol = c3 foreach v in c3.data do a.type = CAT-NUM-NUM a.catcol = c3 foreach v in c3.data do 0.29
v1= get target vals(v, c1) v2= get target vals(v, c2) a.poly, a.error = get polynomial(v1, v2) association list.add(a) v1= get target vals(v, c1) v2= get target vals(v, c2) a.poly, a.error = get polynomial(v1, v2) association list.add(a) 0.42
end end end 終わり 終わり 終わり 0.74
5 5 0.42
英語(論文から抽出)日本語訳スコア
Algorithm 3: Imputation using constraints 1 function impute(data, constraints): 2 アルゴリズム3:制約を用いたインプテーション 1 関数インプット(データ,制約): 2 0.77
Graph g = Graph(data.columns, constraints.associat ions) order = g.topological sort() foreach row r in data do Graph g = Graph(data.columns, constraints.associat ion) order = g.topological sort() foreach row r in data do 0.46
foreach missing val v in order(r) do foreach missing val v in order(r) do 0.43
c = column(v) dt = c.datatype if dt ∈ (NUMERIC, FLOAT) then c = column(v) dt = c.datatype if dt ∈ (NUMERIC, FLOAT) 0.44
v = impute num num(c, r, constraints) if val = empty then v = impute cat num num(c, r, constraints) if val = empty then v = impute cat num(c, r, constraints) if val = empty then v =mean(c) v = impute num(c, r, constraints) if val = empty, v = impute cat num(c, r, constraints) if val = empty, v = impute cat num(c, r, constraints) if val = empty, v =mean(c)
訳抜け防止モード: v = impute num num(c, r, constraints ) val = empty なら、v = impute cat num num(c,) である。 r, constraints ) val = empty なら v = impute cat num(c,) r , constraints ) val = empty なら v = mean(c )
0.84
end else if dt ∈ (CAT NUM, CAT TEXT) then dt ∈ (CAT NUM, CAT TEXT) 0.49
v = impute num cat(c, r, constraints) if v = empty then v = impute cat cat(c, r, constraints) if v = empty then v =most frequent(c) v = impute num cat(c, r, constraints) if v = empty, v = impute cat cat(c, r, constraints) if v = empty, v = most frequent(c)
訳抜け防止モード: v = impute num cat(c, r, constraints ) v = emptyなら v = impute cat cat(c,) r , 制約 ) v = 空であれば、v = 最も頻繁に(c)
0.86
end else if dt = TEXT then dt = TEXT なら終わらない 0.58
v = impute cat text(c, r, constraints) if v = empty then v =most frequent(c) v = impute cat text(c, r, constraints) if v = empty ならば v = most often(c) 0.45
end else if dt = DATE then dt = DATE なら終わらない 0.58
v = impute date date(c, r, constraints) if v = empty then val =mean(c) v = impute date date(c, r, constraints) if v = empty then val =mean(c) 0.44
end end if a.type = CAT-CAT ∧ a.target = column ∧ a.src value = row (a.source) then 終わり 終わり a.type = CAT-CAT > a.target = column > a.src value = row (a.source) 0.61
val, prob = most frequent(a.frequency ) if prob ¿ max prob then val, prob = most frequent (a. frequency) if prob > max prob 0.41
v = val max prob = prob v = val max prob = prob 0.42
end end end return v 終わり 終わり エンド・リターン v 0.71
62 63 function impute num cat(column, row, constraints): 64 62 63 function impute num cat(カラム、行、制約):64 0.78
foreach association a in constraints do foreach association a in constraints do ♪ 0.41
if a.type = CAT-NUM ∧ a.source = column then a.type = CAT-NUM > a.source = column の場合 0.59
target val = row(a.target) if a.target.min < target val < a.target.max then target val = row(a.target) if a.target.min < target val < a.target.max 0.37
6 v.value = a.src value v.error = absolute(target val − expected val(a.distribution)) possible vals.add(v) 6 v.value = a.src value v.error = absolute(target val − expected val(a.distribution)) possible vals.add(v) 0.42
end end end vals = most frequent(possible vals) if size(vals) ¿ 0 then return min error value(vals). 終わり 終わり end vals = most frequent (possible vals) if size(vals) > 0 ならば、min エラー値(vals)を返す。 0.80
value else return empty その他の値は空の値を返す 0.43
3 4 5 6 7 8 3 4 5 6 7 8 0.43
9 10 11 12 9 10 11 12 0.43
13 14 15 16 13 14 15 16 0.53
17 18 19 20 17 18 19 20 0.43
21 22 23 24 21 22 23 24 0.43
25 26 27 31 25 26 27 31 0.43
32 33 34 35 32 33 34 35 0.42
36 37 38 42 36 37 38 42 0.43
43 44 45 46 43 44 45 46 0.43
47 48 49 53 47 48 49 53 0.43
54 55 56 57 54 55 56 57 0.43
58 59 60 61 58 59 60 61 0.43
65 66 67 68 65 66 67 68 0.43
69 70 71 72 69 70 71 72 0.42
73 74 75 76 73 74 75 76 0.42
28 29 function impute num num(column, row, constraints): 30 2829関数 num(カラム、行、制約): 30 0.58
end min error = ∞ foreach association a in constraints do end min error = ∞ foreach association a in constraints do 0.42
if a.type = NUM-NUM ∧ a.target = column then a.type = NUM-NUM > a.target = column の場合 0.61
if a.error ¡ min error then a.error ~ min エラーなら 0.81
v = solve(a.polynomial, row(a.source)) min error = a.error v = solve(a.polynomial, row(a.source)) min error = a.error 0.43
end end 39 40 function impute cat num(column, row, constraints): 41 終わり 終わり 39 40 function impute cat num(カラム、行、制約):41 0.74
end return v min error = ∞ foreach association a in constraints do end return v min error = ∞ foreach association a in constraints do 0.42
if a.error ¡ min error then a.error ~ min エラーなら 0.81
v = get expected value(a.distribution ) min error = a.error v = get expected value(a.distribution ) min error = a.error 0.45
end end end return v 終わり 終わり エンド・リターン v 0.71
50 51 function impute cat cat(column, row, constraints): 52 5051 猫猫を誘惑する機能(カラム、行、制約)52 0.63
max prob = 0 foreach association a in constraints do max prob = 0 foreach association a in constraints do 0.42
if a.type = CAT-NUM ∧ a.target = column ∧ a.src value = row (a.source) then a.type = CAT-NUM > a.target = column > a.src value = row (a.source) 0.33
英語(論文から抽出)日本語訳スコア
Association Source CAT-CAT Association Source CAT-CAT 0.39
CATNUM CATTEXT CATNUM CATTEXT 0.42
NUMNUM CATNUMNUM Numum CATNUNUM 0.32
DATEDATE CAT TEXT / CAT NUM CAT TEXT / CAT NUM 日付 CAT TEXT / CAT NUM CAT TEXT / CAT NUM 0.43
Target CAT TEXT / CAT NUM NUMERIC / FLOAT Target CAT TEXT / CAT NUM NUMERIC / FLOAT 0.42
CAT TEXT / CAT NUM NUMERIC / FLOAT NUMERIC / FLOAT CAT TEXT/CAT NUM NUMERIC/FLOAT NUMERIC/FLOAT 0.42
TEXT NUMERIC / FLOAT NUMERIC / FLOAT TEXT 数値/フロート数値/フロート 0.45
DATE DATE Table 1: Associations 日付 日付 表1:協会 0.64
Constraints Frequency distribution each For source value, min, max, mean and distribution of column Frequency distribution 制約周波数分布 ソース値,min,max,平均およびカラム周波数分布のそれぞれについて 0.84
target Polynomial function Polynomial function, for category value mindiff, maxdiff ターゲット 圏値マインドフ, maxdiffに対する多項式関数の多項関数 0.73
each The CAT-CAT association is defined for two categorical columns, and for each value in the source column, we find the frequency distribution of values in the target column. それぞれ CAT-CATアソシエーションは2つのカテゴリ列に対して定義され、ソース列の各値に対して、ターゲット列内の値の周波数分布を求める。 0.78
The CAT NUM association is defined between a categorical column and a numerical column, and for each value in the source column, we find the min, max, mean and distribution of values in the target column. CAT NUMアソシエーションはカテゴリ列と数値列の間で定義され、ソース列の各値に対して、ターゲット列内の値の最小値、最大値、平均値、および分布を求める。 0.74
We also find error in this constraint which depicts how good fit this distribution is on the target column data. また、この分布がターゲット列データにどの程度適しているかを示す制約にも誤りがある。 0.77
Similar to CAT NUM , in the CAT TEXT association, we find frequency distribution of the target column for every value of the source column. CAT NUMと同様に、CAT TEXTアソシエーションでは、ソース列の各値に対するターゲット列の周波数分布を求める。 0.68
For the NUM-NUM association, we try to find a polynomial function from the source column to the target column. num-num アソシエーションでは、ソース列からターゲットカラムへの多項式関数を見つけようとする。 0.64
The target column may not be an exact function of the source column, but an approximate one. 対象の列はソース列の正確な関数ではなく、近似的な関数である。
訳抜け防止モード: ターゲットカラムは、ソースカラムの正確な機能ではないかもしれない。 しかし ほぼ1つです
0.74
So we also find the error of how good fit this polynomial is. したがって、この多項式がどれだけ良いかという誤差も見出す。 0.57
These errors help in imputing values of a column. これらのエラーは列の値を示すのに役立つ。 0.65
For example, if multiple NUM-NUM associations are available for a target column, we choose the one with the least error. 例えば、複数のNUM-NUMアソシエーションがターゲット列で利用可能であれば、最小エラーのアソシエーションを選択する。 0.70
The DATE-DATE association is a straightforward one where we find the difference between two date columns. date-date associationは、2つのdate columnの違いを見つけるための簡単なものです。 0.71
A simple example for this association is the difference between order date and delivery date for a product. この関係の単純な例は、製品の注文日と納品日の違いである。 0.68
We formally present a generalized version of the above algorithm in Algo- 上記のアルゴリズムの一般化版をalgoで正式に提示する。 0.61
rithm 1 and Algorithm 2. rithm 1とアルゴリズム2。 0.76
7 7 0.42
英語(論文から抽出)日本語訳スコア
3.2 Imputation using constraints 3.2 制約を用いた計算 0.44
The imputation of a missing value is done using the constraints and the values in other columns. 欠落した値のインプテーションは、他の列の制約と値を使って行われる。 0.74
The idea is to impute the values of a column using associations first, and if it is not possible to use associations, impute the value using column level constraints. その考え方は、まずアソシエーションを使って列の値をインプットし、もしアソシエーションを使えないなら、カラムレベルの制約を使って値をインプットする。 0.63
Note that this can happen either due to non-availability of the required associations or due to the non-availability of the values of other columns required by an association. これは、必要なアソシエーションが利用できないか、または、アソシエーションによって要求される他のコラムの値が利用できないためである。 0.53
We will discuss the imputation algorithm informally below, and a generalized version of the algorithm is presented formally in Algorithm 3. 下記の計算アルゴリズムを非公式に議論し、アルゴリズムの一般化版をアルゴリズム3で正式に提示する。 0.72
If there are multiple values missing in the same row, the values are imputed in a particular order. 同じ行に複数の値が欠けている場合、その値は特定の順序でインデュートされます。 0.77
This is done by constructing a graph based on the associations and then sorting it topologically. これは、関連性に基づいてグラフを構築し、トポロジカルにソートすることで実現される。 0.65
The intuition behind this is that the columns with very few unique values, for example labels in a training dataset, have more valuable information than a column with many values. この背景にある直感では、トレーニングデータセットのラベルなど、非常に少数のユニークな値を持つ列は、多くの値を持つ列よりも価値のある情報を持っている。 0.72
Thus, the objective is to give preference to categorical columns over numerical or text columns. したがって、数値カラムやテキストカラムよりもカテゴリカラムを好むことが目的である。 0.69
Not that this is also reflected in the way associations are defined; the source columns for most associations are categorical(CAT-TEXT /CAT-NUM ). これは関連性の定義方法にも反映されるのではなく、ほとんどの関連性に対するソース列は分類的である(CAT-TEXT /CAT-NUM )。 0.65
For imputing a value in a categorical column, the CAT-NUM associations are used first and if it fails, CAT-CAT associations are used and if that also fails, most frequent value of the column is chosen. CAT-NUMアソシエーションは、カテゴリ列に値を入力するために最初に使用され、失敗するとCAT-CATアソシエーションを使用し、失敗してもカラムの最も頻繁な値を選択する。 0.76
For the imputation using CATNUM association, all the possible values for the missing column are computed that conform with the values in other numerical columns range specified in the constraints. CATNUMアソシエーションを用いた計算では、欠落した列の全ての可能な値は、制約で指定された他の数値列の値に適合するように計算される。 0.72
The value that conforms with most of the values in numerical columns is chosen. 数値列のほとんどの値に適合する値が選択される。 0.72
If there are multiple possible values that conform with most numerical columns, the one closest to the mean of the numerical columns is chosen. ほとんどの数値列に適合する複数の可能な値が存在する場合、数値列の平均に最も近い値が選択される。 0.77
Similarly for CAT-CAT association, all the possible values are computed that are most frequent for values in categorical columns, and the one with highest probability is chosen. 同様に、CAT-CATアソシエーションでは、全ての可能な値はカテゴリ列の値に対して最も頻繁に計算され、高い確率を持つ値が選択される。 0.76
For imputing a numerical column, the NUM-NUM association is used for imputing the missing value. 数値列の計算には、NUM-NUMアソシエーションが、欠落した値の計算に使用される。 0.60
And if it fails, i.e., if there is no NUM-NUM association for the missing value column, or the source column value is missing, CAT-NUM-NUM association is used. そして、失敗した場合、すなわち、欠落した値列に対してNUM-NUMアソシエーションが存在しない場合、またはソース列値が欠落した場合、CAT-NUM-NUMアソシエーションが使用される。 0.65
If CAT-NUM-NUM association also fails, then CAT NUM association is used and if that also fails, mean value of the column is chosen. CAT-NUM-NUMアソシエーションも失敗すると、CAT NUMアソシエーションが使用され、そのアソシエーションも失敗すると、カラムの平均値が選択される。 0.69
The imputation using NUM-NUM association is straightforward. NUM-NUMアソシエーションを用いた計算は簡単である。 0.57
If there are multiple NUM-NUM associations in the constraints, the one with least error is used for imputing the value. 制約内に複数のNUM-NUMアソシエーションが存在する場合、最小誤差のものは値の計算に使用される。 0.76
The imputation using CATNUM-NUM is similar to imputation using NUM-NUM , subject to value in a categorical column. CATNUM-NUMを用いた計算は、NUM-NUMを用いた計算と似ている。 0.65
The imputation using CAT-NUM , similar to the imputation of a categorical column using CAT-CAT association, imputes the value with the expected value of the given distribution with least error. CAT-NUMを用いた計算は、CAT-CATアソシエーションを用いたカテゴリー列の計算と類似し、最小誤差で所定の分布の期待値と値を印加する。 0.84
For imputing a text column, the CAT-TEXT association is used for imputing the missing value. CAT-TEXTアソシエーションは、テキスト列をインプットするために、欠落した値をインプットするために使用される。 0.58
And if it fails, the most frequent value of the column is used. そして失敗した場合、列の最も頻繁な値が使用される。 0.83
The imputation of a DATE column uses DATE-DATE association if there are other date columns, otherwise the value is imputed with the median of the DATEカラムの計算は、他の日付カラムがある場合、DATE-DATEアソシエーションを使用します。
訳抜け防止モード: DATEカラムの計算は、他の日付カラムがある場合、DATE - DATEアソシエーションを使用する。 さもなければ 価値は中央値の
0.79
8 8 0.42
英語(論文から抽出)日本語訳スコア
(a) Polynomials (b) Iris (a)多項式 (b)アイリス 0.74
(c) Ecoli (d) Breast Cancer (c)エッコリー (d)乳癌 0.53
(e) Wine (f) Diabetes (e)ワイン (f)糖尿病 0.62
Figure 1: RMSE for Numerical Imputation 図1:数値計算のためのRMSE 0.77
column. Explanations for Imputations カラム。 インプットの解説 0.55
The explanations for an imputation comes directly from the constraints used. インプテーションの説明は、使われる制約から直接来る。 0.53
For example, if CAT-NUM is used for imputing a numerical value, the value and the name of the categorical column used is the explanation for the imputation. 例えば、cat-num が数値を暗示するために使われる場合、使用されるカテゴリの列の値と名前は、その暗示の説明である。 0.71
Similarly, for an imputation using NUM-NUM constraint, the value and the name of the numerical column used is the explanation. 同様に、NUM-NUM制約を用いた計算では、使用する数値列の値と名前が説明である。 0.86
Table 2: Benchmark Characteristics 表2:ベンチマーク特性 0.86
Benchmark Polynomial 1 ベンチマーク多項式1 0.52
Iris 2 Ecoli 2 Wine 2 アイリス2 エコリ2 ワイン2 0.71
Diabetes 2 Breast Cancer 2 糖尿病2 乳がん2例 0.51
Size #Features 1000 150 336 178 486 286 サイズ #features 1000 150 336 178 486 286 0.74
5 4 8 13 20 9 5 4 8 13 20 9 0.42
9 9 0.42
英語(論文から抽出)日本語訳スコア
(a) Iris (b) Bank Market(Job) (a)アイリス (b)銀行市場(ジョブ) 0.73
(c) Bank Market(Marital) (c)銀行市場(マリータル) 0.78
(d) Bank ket(education) (d) 銀行ケット(教育) 0.56
Mar- Figure 2: F1 score for Categorical Imputation マル 図2:カテゴリー計算のためのF1スコア 0.65
4 Experimental Evaluation 4.1 Setup 4 実験評価 4.1 設定 0.74
4.1.1 Benchmark Characteristics 4.1.1ベンチマーク特性 0.47
We have assessed the performance of our approach on open-source data sets from varied sources as listed in Table 2. 表2に示すように、さまざまなソースからのオープンソースデータセットに対するアプローチの性能を評価した。 0.74
Additionally, we also consider a synthetic data set with three numeric attributes having NUM-NUM polynomialassociatio n constraints between them. さらに、NUM-NUM多項式連想制約を持つ3つの数値属性を持つ合成データセットについても検討する。 0.69
4.1.2 Configurations Our code is written in Python and executed in Python 3.7. 4.1.2 構成 私たちのコードはPythonで書かれ、Python 3.7で実行されます。 0.56
All the experiments are performed in a machine running macOS 10.14, having 16GB RAM, 2.7Ghz CPU running Intel Core i7. すべての実験はmacOS 10.14で動作するマシンで行われ、16GBのRAM、2.7GhzのCPUがIntel Core i7で動作する。 0.68
4.1.3 Missing data Generation 4.1.3 不足データ生成 0.60
The previously mentioned data sets which we have considered for our experiments have no missing value in their original forms. 上記の実験で検討したデータセットは,元の形式にはほとんど価値がない。 0.63
Therefore, we take a random approach to pick indices in any data set to discard their values and treat them as missing ones. したがって、任意のデータセットのインデックスをランダムに選択して、それらの値を捨て、欠落したものとして扱います。 0.62
We consider a missing data percentage variable, perc. 欠落したデータパーセンテージを perc とみなす。 0.51
to define how many values in the entire data set are treated as missing. データセット全体でどれだけの値が欠落しているかを定義する。 0.74
It is further to 1 2 それ以上である。 1 2 0.53
synthetic data with columns having polynomial relationships https://archive.ics. uci.edu/ml/datasets. php 多項式関係を持つ列を持つ合成データ https://archive.ics. uci.edu/ml/datasets. php 0.40
10 10 0.43
英語(論文から抽出)日本語訳スコア
be noted that we first encode the categorical text values present in the data sets using an appropriate encoder before feeding it to the data imputation engine. まず、データセットに存在するカテゴリのテキスト値を適切なエンコーダを使用してエンコードし、その後、データインプテーションエンジンに送信します。 0.63
Such values which were treated as CAT TEXT in their original form are now marked with a datatype CAT NUM by our constraint inference module. CAT TEXTとして本来の形で扱われた値には,制約推論モジュールによるデータ型CAT NUMがマークされている。 0.77
4.1.4 Experiment Runs We take an iterative approach while running our experiments to augment the reliability and correctness of our results. 4.1.4実験実行 結果の信頼性と正確性を高めるために、実験をしながら反復的なアプローチを取ります。 0.65
We have set the variable iter as 5 for all our experimental runs, which means that 5 consecutive imputation rounds were performed to replace the missing values in an input data set. その結果、入力データセットの欠落した値を置き換えるために、5回の連続的な計算ラウンドが実行された。
訳抜け防止モード: 変数iterは、すべての実験実行に対して5に設定しました。 つまり、入力データセットの欠落値を置き換えるために、5つの連続したインプテーションラウンドが行われました。
0.71
The numbers reported for different metrics in the subsequent subsections are the average of all the iterations in a single experiment run. 次のセクションで異なる測定基準で報告された数字は、単一の実験の実行におけるすべてのイテレーションの平均である。 0.68
4.2 Experiment Goal We have planned our set of experiments in an attempt to find out how well does our approach perform as compared to the already existing ones. 4.2 実験目標 我々は、既存のものと比較して、我々のアプローチがどの程度うまく機能するかを調べるために、実験セットを計画しました。 0.70
We have considered three different metrics for comparison, namely Data Accuracy, Prediction Accuracy and Fidelity. 我々はデータ精度、予測精度、忠実性の3つの異なる指標を検討した。 0.73
Please note that most of the prior works have reported only Data Accuracy. 以前の作業のほとんどは、データ正確性のみを報告している点に注意してください。 0.60
But, we are evaluating on two additional metrics to further assess how the missing value imputation using different approaches impact the model accuracy. しかし、異なるアプローチを用いた不足値の計算がモデルの精度にどのように影響するかをさらに評価するために、2つの追加メトリクスを評価しています。 0.59
A detailed description of these metrics is presented along with the comparative evaluation of different approaches in the next Subsection 4.3. これらのメトリクスの詳細な説明は、次の4.3で異なるアプローチの比較評価と共に述べられている。 0.74
4.3 Comparison with the Related Works 4.3 関連作品との比較 0.86
We have compared the performance of our approach to fill missing gaps in data as compared to the existing ones, such as mean, k-means, KNN [1], MICE [7], MissForest [11, 13], Datawig [3, 2]. 我々は,meath,k-means,kn[1],マウス[7],ミスフォレスト[11,13],datawig [3,2]といった既存の手法と比較して,データ不足のギャップを埋めるための手法の性能を比較した。 0.75
We leverage the existing functionalities in sklearn to implement some of these prior works. sklearnの既存の機能を活用して、これらの先行作業のいくつかを実装しています。 0.51
The implementations for mean, KNN have been taken from fancyimpute package, and IterativeImputer with the estimators RandomForestRegresso r and LinearRegression caters to mimic the MissForest and MICE, respectively. 平均的な実装としては、KNNは派手なパッケージから、IterativeImputerはRandomForestRegresso rとLinearRegressionでそれぞれMissForestとMICEを模倣している。 0.60
For k-means, we use sklearn’s implementation with cluster count set as 4. k-meansでは、クラスタ数を4とするsklearnの実装を使用します。 0.79
Further, the freely available python-based Datawig API 1 is used to fetch performance numbers for Datawig. さらに、自由に利用可能なpythonベースのdatawig api 1を使用して、datawigのパフォーマンス番号を取得する。 0.64
Next, we discuss our different evaluation metrics along with the obtained 次に得られた評価指標について考察する。 0.51
experimental results. RMSE and F1 Score. 実験結果。 RMSEとF1スコア。 0.79
For different benchmarks, using different approaches, we record the RMSE values obtained for the numerically imputed versions in Figure 異なるベンチマークでは、異なるアプローチを用いて、図の数値的なインプットバージョンで得られたRMSE値を記録する。 0.68
1. For the categorical imputations, we record F1-score as shown in Figure 1. カテゴリー的計算については、図に示すF1スコアを記録する。 0.67
2. The plots in the two sets of figures clearly shows that our technique imputes data better than the existing techniques by introducing less outliers in the imputed versions. 2)2組の図のプロットは,提案手法が既存の手法よりも,インデュートバージョンのアウトリアーを少なくすることで,データをよりよく意味することを明確に示している。
訳抜け防止モード: 2 図の2つの集合のプロットが明確に示す。 我々の手法は 既存の手法よりも データを伝達する インプットされたバージョンに アウトリーチを減らして
0.71
1https://pypi.org/pr oject/datawig/ 1https://pypi.org/pr oject/datawig/ 0.17
11 11 0.42
英語(論文から抽出)日本語訳スコア
Table 3: N RM SE for ours vs related works 表3: N RM SE for ours vs. 関連作品 0.85
Bench. perc. Avg. ベンチ Perc avgだ 0.38
N RM SE for iter=5 N RM SE for iter=5 0.44
Wine Ecoli Polynomials ワイン エッコリー 多項式 0.60
5 10 20 30 5 10 20 30 5 10 20 30 5 10 20 30 5 10 20 30 5 10 20 30 0.42
mean 0.99 0.98 0.99 0.98 0.90 0.81 0.84 0.92 3.87 4.40 4.20 4.18 mean 0.99 0.98 0.99 0.98 0.90 0.81 0.84 0.92 3.87 4.40 4.20 4.18 0.22
k-means KNN MICE Datawig Ours 0.99 0.70 0.69 0.99 0.70 1.11 0.74 2.03 0.61 0.70 0.61 0.59 0.63 0.66 0.80 0.85 0.90 4.69 5.23 0.87 1.59 4.5 4.98 2.45 k-means KNN MICE Datawig Ours 0.99 0.70 0.69 0.99 0.70 1.11 0.74 2.03 0.61 0.70 0.61 0.59 0.63 0.66 0.80 0.85 0.90 4.69 5.23 0.87 1.59 4.5 4.98 2.45 0.22
1.01 0.93 0.87 0.88 0.61 0.73 0.90 1.04 2.82 3.79 4.19 4.54 1.01 0.93 0.87 0.88 0.61 0.73 0.90 1.04 2.82 3.79 4.19 4.54 0.21
0.62 0.66 0.68 0.82 0.68 0.63 0.76 1.04 1.08 1.27 1.45 1.98 0.62 0.66 0.68 0.82 0.68 0.63 0.76 1.04 1.08 1.27 1.45 1.98 0.21
0.65 0.68 0.75 0.78 0.62 0.67 0.70 0.84 1.34 1.11 1.25 1.65 0.65 0.68 0.75 0.78 0.62 0.67 0.70 0.84 1.34 1.11 1.25 1.65 0.21
NRMSE. For a column c with datatype NUMERIC or CAT NUM, the normalized root mean square error with a standard deviation σc, denoted by N RM SEc, is computed as follows: NRMSE データ型NUMERICまたはCAT NUMを持つカラムcでは、標準偏差σcの正規化根平均二乗誤差(N RM SEc)を次のように計算する。 0.51
N RM SEc = N RM SEc = 0.42
RM SEc σc Hence, the normalized root mean square for a dataset, with N COL as the set of all NUMERIC or CAT NUM columns, is the mean of normalized root mean square error for all such columns. RMSec σc したがって、N COL をすべての NUMERIC または CAT NUM 列の集合とするデータセットの正規化根平均平方は、そのような列の正規化根平均平方誤差の平均である。 0.44
N COL(cid:88) N COL(cid:88) 0.44
N RM SEc N RM SE = NRMSec N RM SE = 0.29
c |N COL| The NRMSE for different benchmarks with different missing values percentage resulted using different imputation approaches is listed in Table 3. c |N COL| 異なるインプテーションアプローチで得られた異なる値パーセンテージの異なるベンチマークのnrmseは、表3にリストされている。
訳抜け防止モード: c |N COL| 異なるベンチマークのためのNRMSE 異なる計算方法を用いて 異なる欠落率 表3に記載されている。
0.54
Please note that the values reported here are the average ones across 5 consecutive iterations. ここで報告された値は、5つ連続するイテレーションの平均値であることに注意してください。 0.60
Prediction Accuracy and Fidelity. The experiment starts with splitting the input dataset as train inputs and test inputs in 70:30 respectively. 予測精度と忠実性。 実験は、入力データセットをトレイン入力とテスト入力をそれぞれ70:30で分割することから始まる。 0.77
We then train a Decision Tree Classifier or Regressor depending on the datatype of class label using train inputs, and record the accuracy on the test inputs. 次に、列車入力を用いたクラスラベルのデータタイプに応じて決定木分類器またはレグレッシャを訓練し、テスト入力の精度を記録する。 0.84
This accuracy acts as the baseline for future comparison for this particular dataset. この精度は、この特定のデータセットの将来の比較のベースラインとして機能する。 0.64
Next, using train inputs, we generate different versions of training inputs with missing values while varying the missing data percentage. 次に、列車入力を用いて、欠落したデータの割合を変えながら、欠落した値で異なるバージョンの訓練入力を生成する。 0.58
For every generated training input set with missing value, say, train impute we perform imputation using different state-of-the-art approaches along with our novel method. 例えば、不足した値の生成されたトレーニング入力セットに対して、新しい手法とともに、異なる最先端アプローチを用いて、インプットを行う。 0.58
We also train a new Decision Tree Classifier or Regressor using every また、すべてを使用して新しい決定木分類器や回帰器をトレーニングします。 0.47
12 12 0.42
英語(論文から抽出)日本語訳スコア
Table 4: P rediction Accuracy and F idelity 表4:P補正精度とF不確かさ 0.78
Bench. perc. Wine ベンチ Perc ワイン 0.44
Iris 5 10 20 30 5 10 20 30 アイリス 5 10 20 30 5 10 20 30 0.51
mean 0.88, 0.81 0.85, 0.74 0.79, 0.72 0.83, 0.74 0.95, 0.95 0.84, 0.84 0.75, 0.75 0.77, 0.77 mean 0.88, 0.81 0.85, 0.74 0.79, 0.72 0.83, 0.74 0.95, 0.95 0.84, 0.84 0.75, 0.75 0.77, 0.77 0.26
(P rediction Accuracy, F idelity) for iter=5 Datawig k-means 0.88, 0.81 0.90, 0.92 0.88, 0.85 0.77, 0.72 0.85, 0.77 0.83, 0.81 0.83, 0.79 0.64, 0.62 0.97, 0.97 0.95, 0.95 0.95, 0.95 1, 1 0.91, 0.91 0.91, 0.91 0.91, 0.91 0.95, 0.93 (P補正精度、Fidelity) for iter=5 Datawig k-means 0.88, 0.81 0.90, 0.92 0.88, 0.85 0.77, 0.72 0.85, 0.77 0.83, 0.81 0.83, 0.79 0.64, 0.62 0.97, 0.97 0.95, 0.95 0.95, 0.95 1, 1 0.91, 0.91 0.91, 0.91 0.95, 0.93
訳抜け防止モード: (p還元精度, f idelity ) iter=5 datawig k は 0.88 である。 0.81 0.90, 0.92 0.88, 0.85 0.77, 0.72 0.85, 0.77 0.83, 0.81 0.83, 0.79 0.64, 0.62 0.97, 0.97 0.95, 0.95 0.95, 0.95 1, 1 0.91, 0.91 0.91, 0.91 0.91 , 0.91 0.95 , 0.93
0.55
KNN 0.87, 0.79 0.83, 0.75 0.79, 0.77 0.81, 0.75 1, 1 1, 1 0.91, 0.91 0.86, 0.86 KNN 0.87, 0.79 0.83, 0.75 0.79, 0.77 0.81, 0.75 1, 1 1, 1 0.91, 0.91 0.86, 0.86 0.31
MICE 0.87, 0.88 0.81, 0.79 0.88, 0.79 0.75, 0.77 0.97, 0.97 0.95, 0.95 0.95, 0.95 0.93, 0.93 MICE 0.87, 0.88 0.81, 0.79 0.88, 0.79 0.75, 0.77 0.97, 0.97 0.95, 0.95 0.95, 0.95 0.93, 0.93 0.26
Ours 0.98, 0.85 0.98, 0.85 1, 0.87 0.92, 0.79 1, 1 1, 1 0.95, 0.95 0.95, 0.95 Ours 0.98, 0.85 0.98, 0.85 1, 0.87 0.92, 0.79 1, 1 1, 1 0.95, 0.95 0.95, 0.95 0.32
(a) Wine Dataset (a)ワインデータセット 0.89
(b) Iris Dataset (b)アイリスデータセット 0.74
Figure 3: Accuracy and Fidelity 図3:正確性と忠実性 0.78
train impute and record its accuracy on test inputs. インプットを訓練し 精度をテスト入力に記録する 0.77
Additionally, we also record the fidelity of the trained models using imputed trained data for the datasets having categorical class label. さらに,分類的クラスラベルを持つデータセットに対するインデュートトレーニングデータを用いて,トレーニングモデルの忠実性を記録する。 0.80
Table 4 reports the prediction accuracy and fidelity of the models trained using imputed training data using different methods for Wine and Iris datasets. 表4は、ワインと虹彩データセットの異なる方法を用いて、インデュートトレーニングデータを用いてトレーニングしたモデルの予測精度と忠実度を報告する。 0.72
Please note that both of these datasets have categorical class label, hence, fidelity scoring was possible. いずれのデータセットも分類クラスラベルを持っているので、フィデリティスコアが可能であることに注意してください。 0.54
As inferred from Figure 3, our approach performs better than the state-of-the-art methods while offering higher accuracy without compromising much on fidelity. 図3に示すように、このアプローチは最先端の手法よりも優れており、忠実さを損なうことなく高い精度を実現しています。 0.59
Number of different values in integer and category columns. 整数列とカテゴリ列の異なる値の数。 0.75
The encoded categorical or integer columns require the values only in integer format. エンコードされたカテゴリや整数列は、整数形式でのみ値を必要とする。 0.61
However, numerical imputation techniques impute the values for all columns by real numbers. しかし、数値計算技術は実数で全ての列の値を暗示する。 0.76
These techniques may give very small root mean square error for these values but are not much useful for the imputation use case. これらの手法は、これらの値に対して非常に小さな根平均二乗誤差を与えるが、インプテーションのユースケースではあまり役に立たない。 0.58
These real values can be converted to integer values by rounding them. これらの実値はそれらを丸めれば整数値に変換できる。 0.76
Figure 4 shows the number of different values in integer and category columns in four datasets. 図4は、整数列とカテゴリ列の異なる値の数を4つのデータセットで示します。 0.73
13 13 0.85
英語(論文から抽出)日本語訳スコア
(a) Wine Dataset (a)ワインデータセット 0.89
(b) Polynomial Dataset b)多項式データセット 0.75
(c) Iris Dataset (c)アイリスデータセット 0.74
(d) Ecoli Dataset (d)ecoliデータセット 0.82
Figure 4: Number of different values in integer and category columns. 図4: 整数列とカテゴリ列の異なる値の数。 0.78
14 14 0.43
英語(論文から抽出)日本語訳スコア
5 Conclusion For the datasets with no or few associations, i.e., attributes are independent, other techniques give better results than imputation using constraints. 5 結論 関連性のないデータセット、すなわち属性は独立であり、他のテクニックは制約を使った計算よりも優れた結果を与える。 0.71
But when the attributes are related, which is more often than not in most real datasets, our technique gives better results. しかし、属性が関連している場合、ほとんどの実際のデータセットにはないことが多いため、より優れた結果が得られる。 0.67
References [1] Gustavo E. A. P. A. Batista and Maria Carolina Monard. 参考文献 グスタボ・E・A・P・A・バティスタとマリア・カロライナ・モナール。 0.54
An analysis of four missing data treatment methods for supervised learning. 教師付き学習のための4つの欠落データ処理手法の解析 0.76
Applied Artificial Intelligence, 17(5-6):519–533, 2003. 応用人工知能 17(5-6):519–533, 2003 0.80
[2] Felix Biessmann, Tammo Rukat, Phillipp Schmidt, Prathik Naidu, Sebastian Schelter, Andrey Taptunov, Dustin Lange, and David Salinas. [2]Felix Biessmann, Tammo Rukat, Phillipp Schmidt, Prathik Naidu, Sebastian Schelter, Andrey Taptunov, Dustin Lange, David Salinas。 0.39
Datawig: Missing value imputation for tables. Datawig: テーブルの値計算の欠如。 0.77
Journal of Machine Learning Research, 20(175):1–6, 2019. journal of machine learning research, 20(175):1-6, 2019を参照。 0.74
[3] Felix Bießmann, David Salinas, Sebastian Schelter, Philipp Schmidt, and Dustin Lange. Felix Bießmann氏、David Salinas氏、Sebastian Schelter氏、Philipp Schmidt氏、Dustin Lange氏。 0.36
”deep” learning for missing value imputationin tables with non-numerical data. 非数値データ付き値計算テーブルの欠落に対する“ディープ”学習。 0.75
In Alfredo Cuzzocrea, James Allan, Norman W. Paton, Divesh Srivastava, Rakesh Agrawal, Andrei Z. Broder, Mohammed J. Zaki, K. Sel¸cuk Candan, Alexandros Labrinidis, Assaf Schuster, and Haixun Wang, editors, Proceedings of the 27th ACM International Conference on Information and Knowledge Management, CIKM 2018, Torino, Italy, October 22-26, 2018, pages 2017–2025. Alfredo Cuzzocrea, James Allan, Norman W. Paton, Divesh Srivastava, Rakesh Agrawal, Andrei Z. Broder, Mohammed J. Zaki, K. Sel scuk Candan, Alexandros Labrinidis, Assaf Schuster, and Haixun Wang, editors, Proceedings of the 27th ACM International Conference on Information and Knowledge Management, CIKM 2018, Torino, Italy, October 22-26, 2018, page 2017–25
訳抜け防止モード: alfredo cuzzocrea、james allan、norman w. paton、divesh srivastava。 rakesh agrawal, andrei z. broder, mohammed j. zaki, k. sel scuk candan, alexandros labrinidis assaf schuster, and haixun wang, and editors, proceedings of the 27th acm international conference on information and knowledge management 2018年10月22日~26日、イタリアのトリノ。 2017-2025頁。
0.66
ACM, 2018. 2018年、ACM。 0.85
[4] Michele Dallachiesa, Amr Ebaid, Ahmed Eldawy, Ahmed K. Elmagarmid, Ihab F. Ilyas, Mourad Ouzzani, and Nan Tang. 4] michele dallachiesa, amr ebaid, ahmed eldawy, ahmed k. elmagarmid, ihab f. ilyas, mourad ouzzani, nan tang
訳抜け防止モード: (4) Michele Dallachiesa, Amr Ebaid, Ahmed Eldawy Ahmed K. Elmagarmid, Ihab F. Ilyas, Mourad Ouzzani 南唐とも。
0.40
NADEEF: a commodity data cleaning system. NADEEF:コモディティデータクリーニングシステム。 0.36
In Kenneth A. Ross, Divesh Srivastava, and Dimitris Papadias, editors, Proceedings of the ACM SIGMOD International Conference on Management of Data, SIGMOD 2013, New York, NY, USA, June 22-27, 2013, pages 541–552. Kenneth A. Ross, Divesh Srivastava, Dimitris Papadias, editors, Proceedings of the ACM SIGMOD International Conference on Management of Data, SIGMOD 2013, New York, NY, USA, June 22-27, 2013 page 541–552
訳抜け防止モード: ケネス・a・ロス、ディヴィッシュ・スリヴァスタヴァ、ディミトリス・パパディアス。 編集部会「データ管理に関するacm sigmod国際会議」の報告 sigmod 2013, new york, ny, usa, june 22–27. 2013年6月22日閲覧。 541-552頁。
0.56
ACM, 2013. 2013年、ACM。 0.87
[5] Lovedeep Gondara and Ke Wang. 5]Lovedeep GondaraとKe Wang。 0.36
MIDA: multiple imputation using denoising autoencoders. MIDA: denoising autoencoder を用いた多重計算。 0.80
In Dinh Q. Phung, Vincent S. Tseng, Geoffrey I. Webb, Bao Ho, Mohadeseh Ganji, and Lida Rashidi, editors, Advances in Knowledge Discovery and Data Mining - 22nd Pacific-Asia Conference, PAKDD 2018, Melbourne, VIC, Australia, June 3-6, 2018, Proceedings, Part III, volume 10939 of Lecture Notes in Computer Science, pages 260– 272. Dinh Q. Phung, Vincent S. Tseng, Geoffrey I. Webb, Bao Ho, Mohadeseh Ganji, and Lida Rashidi, editors, Advances in Knowledge Discovery and Data Mining - 22nd Pacific-Asia Conference, PAKDD 2018, Melbourne, VIC, Australia, June 3-6, 2018, Proceedings, Part III, Volume 10939 of Lecture Notes in Computer Science, page 260–272. ^ ^ 原文(英語)
訳抜け防止モード: Dinh Q. Phung, Vincent S. Tseng, Geoffrey I. Webb Bao Ho, Mohadeseh Ganji, Lida Rashidi, editors, Advances in Knowledge Discovery and Data Mining - 22nd Pacific - Asia Conference, PAKDD 2018, メルボルン, VIC, オーストラリア, 2018年6月3日~6日。 コンピュータサイエンスにおける講義ノート第10939巻 260 - 272頁。
0.80
Springer, 2018. 2018年、スプリンガー。 0.51
[6] Yehuda Koren, Robert M. Bell, and Chris Volinsky. 6]Yehuda Koren氏、Robert M. Bell氏、Chris Volinsky氏。 0.72
Matrix factorization techniques for recommender systems. 推薦システムのための行列分解技術 0.62
IEEE Computer, 42(8):30–37, 2009. ieee computer, 42(8):30-37, 2009を参照。 0.60
[7] R.J.A. Little and D.B. Rubin. 7] r.j.a.リトルと d.b.ルービン 0.63
Statistical analysis with missing data. 欠落データによる統計的分析 0.85
Wiley series in probability and mathematical statistics. 確率および数学統計学におけるワイリー級数。 0.65
Probability and mathematical statistics. Wiley, 2002. 確率と数学的統計。 2002年、ウィリー。 0.77
15 15 0.42
英語(論文から抽出)日本語訳スコア
[8] Pierre-Alexandre Mattei and Jes Frellsen. 8]ピエール=アレクサンドル・マタイとジェス・フレルセン。 0.53
MIWAE: deep generative modelling and imputation of incomplete data sets. MIWAE: 不完全なデータセットの深い生成モデリングと計算。 0.78
In Kamalika Chaudhuri and Ruslan Salakhutdinov, editors, Proceedings of the 36th International Conference on Machine Learning, ICML 2019, 9-15 June 2019, Long Beach, California, USA, volume 97 of Proceedings of Machine Learning Research, pages 4413–4423. Kamalika Chaudhuri と Ruslan Salakhutdinov, editors, Proceedings of the 36th International Conference on Machine Learning, ICML 2019, 9-15 June 2019, Long Beach, Volume 97 of Proceedings of Machine Learning Research, page 4413–4423. では、機械学習に関する第36回国際会議が開催されている。 0.78
PMLR, 2019. 2019年、PMLR。 0.72
[9] Rahul Mazumder, Trevor Hastie, and Robert Tibshirani. 9]Rahul Mazumder, Trevor Hastie, Robert Tibshirani。 0.29
Spectral regularization algorithms for learning large incomplete matrices. 大規模不完全行列学習のためのスペクトル正規化アルゴリズム 0.71
J. Mach. Learn. Res., 11:2287–2322, 2010. j・マッハ 学ぶ。 2010年、11:2287-2322頁。 0.48
[10] Alfredo Naz´abal, Pablo M. Olmos, Zoubin Ghahramani, and Isabel Valera. 10]Alfredo Naz ́abal, Pablo M. Olmos, Zoubin Ghahramani, Isabel Valera 0.37
Handling incomplete heterogeneous data using vaes. 不完全な不均一データを扱う。 0.64
CoRR, abs/1807.03653, 2018. cor、abs/1807.03653、2018年。 0.41
[11] Daniel J. Stekhoven and Peter B¨uhlmann. 11] ダニエル・j・シュテクホーフェンと ピーター・b・ショルマン 0.53
Missforest - non-parametric missing value imputation for mixed-type data. missforest - 混合型データに対する非パラメトリックな欠落値インプテーション。 0.71
Bioinformatics, 28(1):112– 118, 2012. バイオインフォマティクス 28(1):112–118, 2012 0.72
[12] Olga G. Troyanskaya, Michael N. Cantor, Gavin Sherlock, Patrick O. Brown, Trevor Hastie, Robert Tibshirani, David Botstein, and Russ B. Altman. 12]Olga G. Troyanskaya, Michael N. Cantor, Gavin Sherlock, Patrick O. Brown, Trevor Hastie, Robert Tibshirani, David Botstein, Russ B. Altman。 0.41
Missing value estimation methods for DNA microarrays. dnaマイクロアレイの値推定方法の欠如 0.73
Bioinformatics, 17(6):520–525, 2001. バイオインフォマティクス 17(6):520–525, 2001。 0.74
[13] S. van Buuren. 13] S. van Buuren. 0.40
Flexible Imputation of Missing Data. 欠測データのフレキシブルな計算法 0.69
Chapman & Hall/CRC チャップマン&ホール/crc 0.53
Interdisciplinary Statistics. CRC Press, Taylor & Francis Group, 2018. 学際統計学。 CRCプレス、テイラー&フランシスグループ、2018年。 0.71
[14] Jinsung Yoon, James Jordon, and Mihaela van der Schaar. 14]ジンスンヨン、ジェームズ・ホルドン、ミハイラ・ヴァン・デル・シャール 0.49
GAIN: missing data imputation using generative adversarial nets. GAIN: 生成的敵ネットを用いたデータ計算の欠如。 0.66
In Jennifer G. Dy and Andreas Krause, editors, Proceedings of the 35th International Conference on Machine Learning, ICML 2018, Stockholmsm¨assan, Stockholm, Sweden, July 10-15, 2018, volume 80 of Proceedings of Machine Learning Research, pages 5675–5684. jennifer g. dy and andreas krause, editors, proceedings of the 35th international conference on machine learning, icml 2018, stockholmsm zyassan, stockholm, sweden, july 10-15, 2018, volume 80 of proceedings of machine learning research, pages 5675–5684 (英語)
訳抜け防止モード: Jennifer G. Dy and Andreas Krause, editors, Proceedings of the 35th International Conference on Machine Learning ストックホルム・シャサン、スウェーデン、ストックホルム、2018年7月10日~15日。 Proceedings of Machine Learning Research』第80巻5675-5684頁。
0.77
PMLR, 2018. 2018年、PMLR。 0.68
[15] Hongbao Zhang, Pengtao Xie, and Eric P. Xing. [15]Hongbao Zhang、Pengtao Xie、Eric P. Xing。 0.73
Missing value imputation based on deep generative models. 価値の含意の欠如 深い生成モデルに基づいています 0.63
CoRR, abs/1808.01684, 2018. cor、abs/1808.01684、2018年。 0.42
16 16 0.43
                                 ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。