Fugu-MT 論文翻訳(概要): Numerical Data Imputation for Multimodal Data Sets: A Probabilistic Nearest-Neighbor Kernel Density Approach

論文の概要: Numerical Data Imputation for Multimodal Data Sets: A Probabilistic Nearest-Neighbor Kernel Density Approach

arxiv url: http://arxiv.org/abs/2306.16906v2
Date: Mon, 10 Jul 2023 05:35:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-11 17:56:34.646965
Title: Numerical Data Imputation for Multimodal Data Sets: A Probabilistic Nearest-Neighbor Kernel Density Approach
Title（参考訳）: マルチモーダルデータセットに対する数値データインプテーション:確率的最接近核密度アプローチ
Authors: Florian Lalande and Kenji Doya
Abstract要約: 近辺推定(k$NN)と密度推定をガウスカーネル(KDE)で組み合わせたデータ計算手法を提案する。提案手法は, 複雑なデータ構造に対処し, より低いデータ計算誤差を発生し, 確率的推定を現在の手法よりも高い確率で行うことができることを示す。
参考スコア（独自算出の注目度）: 2.750124853532831
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Numerical data imputation algorithms replace missing values by estimates to leverage incomplete data sets. Current imputation methods seek to minimize the error between the unobserved ground truth and the imputed values. But this strategy can create artifacts leading to poor imputation in the presence of multimodal or complex distributions. To tackle this problem, we introduce the $k$NN$\times$KDE algorithm: a data imputation method combining nearest neighbor estimation ($k$NN) and density estimation with Gaussian kernels (KDE). We compare our method with previous data imputation methods using artificial and real-world data with different data missing scenarios and various data missing rates, and show that our method can cope with complex original data structure, yields lower data imputation errors, and provides probabilistic estimates with higher likelihood than current methods. We release the code in open-source for the community: https://github.com/DeltaFloflo/knnxkde
Abstract（参考訳）: 数値データインプテーションアルゴリズムは、欠落した値を推定で置き換え、不完全なデータセットを活用する。現在の計算法は、観測されていない基底真理と暗示値との誤差を最小化する。しかし、この戦略はマルチモーダル分布や複雑な分布の存在下では、悪影響をもたらすアーティファクトを生み出す可能性がある。この問題に対処するために、近辺推定(k$NN)と密度推定(KDE)を組み合わせたデータ計算法である$k$NN$\times$KDEアルゴリズムを導入する。異なるデータ欠落シナリオと様々なデータ欠落率を有する人工的および実世界のデータを用いた従来のデータインプテーション手法と比較し,本手法が複雑なオリジナルデータ構造に対応し,データインプテーション誤差を低減し,確率的推定を現在の手法よりも高い確率で提供することを示す。コードはオープンソースでコミュニティ向けにリリースします。 https://github.com/deltafloflo/knnxkde

関連論文リスト

Kernel Representation and Similarity Measure for Incomplete Data [55.62595187178638]
不完全データの類似性を測定することは、Webマイニング、レコメンデーションシステム、ユーザー行動分析において基本的な課題である。従来のアプローチでは、不完全なデータを破棄するか、事前処理のステップとして計算を実行するかのいずれかであり、情報損失と類似性のバイアスが生じる。本稿では,カーネルの特徴空間における不完全データ間の類似性を,元の空間における明示的な計算なしで直接計算する,新しい類似度尺度を提案する。
論文参考訳（メタデータ） (2025-10-15T09:41:23Z)
Inverse Entropic Optimal Transport Solves Semi-supervised Learning via Data Likelihood Maximization [65.8915778873691]
条件分布は機械学習の中心的な問題ですペアデータとペアデータの両方を統合する新しい学習パラダイムを提案する。我々のアプローチはまた、興味深いことに逆エントロピー最適輸送(OT)と結びついている。
論文参考訳（メタデータ） (2024-10-03T16:12:59Z)
Adaptive $k$-nearest neighbor classifier based on the local estimation of the shape operator [49.87315310656657]
我々は, 局所曲率をサンプルで探索し, 周辺面積を適応的に定義する適応型$k$-nearest(kK$-NN)アルゴリズムを提案する。多くの実世界のデータセットから、新しい$kK$-NNアルゴリズムは、確立された$k$-NN法と比較してバランスの取れた精度が優れていることが示されている。
論文参考訳（メタデータ） (2024-09-08T13:08:45Z)
Learning to Bound Counterfactual Inference in Structural Causal Models from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文参考訳（メタデータ） (2022-12-06T12:42:11Z)
A Robust and Flexible EM Algorithm for Mixtures of Elliptical Distributions with Missing Data [71.9573352891936]
本稿では、ノイズや非ガウス的なデータに対するデータ計算の欠如に対処する。楕円分布と潜在的な欠落データを扱う特性を混合した新しいEMアルゴリズムについて検討した。合成データの実験的結果は,提案アルゴリズムが外れ値に対して頑健であり,非ガウスデータで使用可能であることを示す。
論文参考訳（メタデータ） (2022-01-28T10:01:37Z)
RIFLE: Imputation and Robust Inference from Low Order Marginals [10.082738539201804]
我々は,不備なデータの存在下での回帰と分類のための統計的推論フレームワークを開発する。我々のフレームワークであるRIFLEは、基礎となるデータ分布の低次モーメントを対応する信頼区間で推定し、分布的に堅牢なモデルを学ぶ。実験の結果,RIFLEは,欠落値の割合が高い場合や,データポイント数が比較的小さい場合には,他のベンチマークアルゴリズムよりも優れていることがわかった。
論文参考訳（メタデータ） (2021-09-01T23:17:30Z)
DPER: Efficient Parameter Estimation for Randomly Missing Data [0.24466725954625884]
本稿では,1クラス・複数クラスのランダムに欠落したデータセットに対して,最大推定値(MLE)を求めるアルゴリズムを提案する。我々のアルゴリズムは、データを通して複数のイテレーションを必要としないので、他の方法よりも時間のかかることを約束します。
論文参考訳（メタデータ） (2021-06-06T16:37:48Z)
List-Decodable Mean Estimation in Nearly-PCA Time [50.79691056481693]
高次元におけるリストデコタブル平均推定の基本的な課題について検討する。我々のアルゴリズムは、すべての$k = O(sqrtd) cup Omega(d)$に対して$widetildeO(ndk)$で実行されます。我々のアルゴリズムの変種は、すべての$k$に対してランタイム$widetildeO(ndk)$を持ち、リカバリ保証の$O(sqrtlog k)$ Factorを犠牲にしている。
論文参考訳（メタデータ） (2020-11-19T17:21:37Z)
Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文参考訳（メタデータ） (2020-10-02T10:41:59Z)
Online Missing Value Imputation and Change Point Detection with the Gaussian Copula [21.26330349034669]
実世界のデータサイエンスにとって、値計算の欠如は不可欠である。ガウスコプラを用いた混合データに対するオンライン計算アルゴリズムを開発した。
論文参考訳（メタデータ） (2020-09-25T16:27:47Z)
Evaluating representations by the complexity of learning low-loss predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文参考訳（メタデータ） (2020-09-15T22:06:58Z)
Matrix Completion with Quantified Uncertainty through Low Rank Gaussian Copula [30.84155327760468]
本稿では,不確かさを定量化した値計算の欠如に対する枠組みを提案する。モデルに適合するために必要な時間は、データセット内の行数や列数と線形にスケールする。実験結果から,本手法は様々な種類のデータに対して最先端の計算精度が得られることがわかった。
論文参考訳（メタデータ） (2020-06-18T19:51:42Z)
Establishing strong imputation performance of a denoising autoencoder in a wide range of missing data problems [0.0]
トレーニングと計算の両方に一貫したフレームワークを開発します。結果と最先端の計算手法を比較検討した。開発されたオートエンコーダは、初期データ破損のあらゆる範囲において最小の誤差を得た。
論文参考訳（メタデータ） (2020-04-06T12:00:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。