論文の概要: Missing Data Imputation using Optimal Transport
- arxiv url: http://arxiv.org/abs/2002.03860v3
- Date: Wed, 1 Jul 2020 09:16:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 07:49:51.895514
- Title: Missing Data Imputation using Optimal Transport
- Title(参考訳): 最適輸送を用いた欠落データ計算
- Authors: Boris Muzellec, Julie Josse, Claire Boyer, Marco Cuturi
- Abstract要約: 最適輸送距離を利用して基準を定量化し、損失関数に変換し、欠落したデータ値をインプットする。
エンド・ツー・エンド・ラーニングを用いてこれらの損失を最小限に抑えるための実践的手法を提案する。
これらの実験により、OTベースの手法は、欠落した値の高い割合であっても、最先端の計算手法と一致しているか、性能が良くないことを示す。
- 参考スコア(独自算出の注目度): 43.14084843713895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Missing data is a crucial issue when applying machine learning algorithms to
real-world datasets. Starting from the simple assumption that two batches
extracted randomly from the same dataset should share the same distribution, we
leverage optimal transport distances to quantify that criterion and turn it
into a loss function to impute missing data values. We propose practical
methods to minimize these losses using end-to-end learning, that can exploit or
not parametric assumptions on the underlying distributions of values. We
evaluate our methods on datasets from the UCI repository, in MCAR, MAR and MNAR
settings. These experiments show that OT-based methods match or out-perform
state-of-the-art imputation methods, even for high percentages of missing
values.
- Abstract(参考訳): 現実世界のデータセットに機械学習アルゴリズムを適用する場合、データの欠如は重要な問題である。
同じデータセットからランダムに抽出された2つのバッチが同じ分布を共有するという単純な仮定から始まり、最適な輸送距離を活用してその基準を定量化し、損失関数に変換し、欠落したデータ値をインプットする。
本稿では,これらの損失をエンド・ツー・エンド学習を用いて最小化するための実用的な手法を提案する。
我々は、uciリポジトリ、mcar、mar、mnarの設定からデータセットのメソッドを評価する。
これらの実験により、otに基づく手法は、不足する値の割合が高い場合でも、最先端のインプテーション法と一致または外れていることが示された。
関連論文リスト
- Evaluation of Missing Data Analytical Techniques in Longitudinal Research: Traditional and Machine Learning Approaches [11.048092826888412]
本研究ではモンテカルロシミュレーションを用いて,成長曲線モデリングフレームワークにおけるデータ不足に対する6つの解析手法の有効性を評価・比較する。
本研究では,サンプルサイズ,データ速度の欠如,データメカニズムの欠如,データ分布がモデル推定の精度と効率に与える影響について検討する。
論文 参考訳(メタデータ) (2024-06-19T20:20:30Z) - Transformed Distribution Matching for Missing Value Imputation [7.754689608872696]
欠落した値の計算の鍵となるのは、不完全なサンプルでデータ分布をキャプチャし、それに従って欠落した値をインプットすることだ。
本稿では,2つのデータバッチの欠落を,深い可逆関数を通して潜在空間に変換することで補足する手法を提案する。
変換を学習し、欠落した値を同時にインプットするために、単純でモチベーションのよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-20T23:44:30Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - FCMI: Feature Correlation based Missing Data Imputation [0.0]
本稿では,FCMIと呼ばれる相関関係に基づいて,データセットの欠落を補足する効率的な手法を提案する。
提案アルゴリズムはデータセットの高相関属性を選択し,これらの属性を用いて回帰モデルを構築する。
分類データセットと回帰データセットの両方で行った実験により,提案手法が既存の計算アルゴリズムより優れていることが示された。
論文 参考訳(メタデータ) (2021-06-26T13:35:33Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Deep Active Learning for Biased Datasets via Fisher Kernel
Self-Supervision [5.352699766206807]
アクティブラーニング(AL)は、データ要求型ディープニューラルネットワーク(DNN)のラベル付け作業を最小化する
自己教師型フィッシャーカーネル(FK)を用いた特徴密度マッチングのための低複雑さ手法を提案する。
本手法は,MNIST,SVHN,ImageNetの分類において,処理の1/10しか必要とせず,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2020-03-01T03:56:32Z) - On the consistency of supervised learning with missing values [15.666860186278782]
多くのアプリケーション設定において、データは分析を難しくするエントリを欠いている。
ここでは、教師あり学習の設定について考察する。トレーニングデータとテストデータの両方に、欠落した値が現れるときにターゲットを予測する。
本研究では,学習前の平均値など,一定値が得られない場合に一定であることを示す。
論文 参考訳(メタデータ) (2019-02-19T07:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。