論文の概要: Learning What Not to Impute: An Uncertainty-Aware Diffusion Framework for Meaningful Missingness
- arxiv url: http://arxiv.org/abs/2606.05073v1
- Date: Wed, 03 Jun 2026 16:31:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.899046
- Title: Learning What Not to Impute: An Uncertainty-Aware Diffusion Framework for Meaningful Missingness
- Title(参考訳): インプットするべきでないことを学ぶ:不確かさを意識した不確実性拡散フレームワーク
- Authors: Lixing Zhang, Yidong Ouyang, Weifu Li, Shixiang Zhu, Guang Cheng, Liyan Xie,
- Abstract要約: Diff-Jointを提案する。
Diff-Jointは、競合計算精度を達成し、下流タスク性能を向上しつつ、有意義に欠落したエントリを効果的に識別することを示した。
- 参考スコア(独自算出の注目度): 21.05045478147808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Missing value imputation is a fundamental task in machine learning, with most existing methods assuming that all missing entries correspond to unobserved regular values. In many real-world datasets, however, missingness may arise from two distinct sources: some entries are meaningfully missing (intrinsically absent and semantically valid), while others are missing due to the observation process and should be imputed. We formalize this distinction as a selective imputation problem, where the goal is to jointly infer which missing entries should be preserved and which should be recovered. To address this challenge, we propose Diff-Joint, a diffusion-based framework that jointly models tabular data together with a latent missingness mask. The method alternates between conditional sampling and uncertainty-aware aggregation to iteratively refine both imputed values and missingness labels. Empirical results on synthetic and real-world datasets demonstrate that Diff-Joint effectively identifies meaningfully missing entries while achieving competitive imputation accuracy and improved downstream task performance.
- Abstract(参考訳): 不足値計算は機械学習の基本的な課題であり、既存のほとんどの手法は、欠落した全てのエントリが保存されていない正規値に対応すると仮定している。
しかし、多くの現実世界のデータセットでは、いくつかのエントリは意味的に欠落している(本質的に欠落しており、意味論的に有効である)が、他のエントリは観察プロセスのために欠落しており、暗示されるべきである。
我々は,この区別を選択的計算問題として定式化し,どの項目が保存されるべきか,どの項目が回収されるべきかを共同で推測することを目的とする。
この課題に対処するために,グラフデータと潜在欠落マスクを併用した拡散モデルであるDiff-Jointを提案する。
本手法は,条件付きサンプリングと不確実性を考慮したアグリゲーションを交互に行い,インプット値と欠落ラベルの両方を反復的に精錬する。
合成および実世界のデータセットにおける実験結果から、Diff-Jointは、競合的計算精度を達成し、下流タスク性能を改善しながら、有意義に欠落したエントリを効果的に識別することを示した。
関連論文リスト
- Kernel Representation and Similarity Measure for Incomplete Data [55.62595187178638]
不完全データの類似性を測定することは、Webマイニング、レコメンデーションシステム、ユーザー行動分析において基本的な課題である。
従来のアプローチでは、不完全なデータを破棄するか、事前処理のステップとして計算を実行するかのいずれかであり、情報損失と類似性のバイアスが生じる。
本稿では,カーネルの特徴空間における不完全データ間の類似性を,元の空間における明示的な計算なしで直接計算する,新しい類似度尺度を提案する。
論文 参考訳(メタデータ) (2025-10-15T09:41:23Z) - Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z) - Impute-MACFM: Imputation based on Mask-Aware Flow Matching [1.9483189922830135]
Impute-MACFMは、表計算のための条件付きフローマッチングフレームワークである。
無作為性、無作為性、無作為性、無作為性、無作為性に対処する。
軌道は欠落したエントリのみに設定され、予測速度は観測されたエントリでほぼゼロに抑えられる。
論文 参考訳(メタデータ) (2025-09-27T05:15:09Z) - DiffPuter: Empowering Diffusion Models for Missing Data Imputation [56.48119008663155]
本稿ではDiffPuterについて紹介する。DiffPuterは、データ計算の欠如に対する期待最大化(EM)アルゴリズムと組み合わせた、カスタマイズされた拡散モデルである。
我々の理論的解析は、DiffPuterのトレーニングステップがデータ密度の最大推定値に対応することを示している。
DiffPuterは,最も競争力のある既存手法と比較して,MAEが6.94%,RMSEが4.78%向上した。
論文 参考訳(メタデータ) (2024-05-31T08:35:56Z) - Transformed Distribution Matching for Missing Value Imputation [7.754689608872696]
欠落した値の計算の鍵となるのは、不完全なサンプルでデータ分布をキャプチャし、それに従って欠落した値をインプットすることだ。
本稿では,2つのデータバッチの欠落を,深い可逆関数を通して潜在空間に変換することで補足する手法を提案する。
変換を学習し、欠落した値を同時にインプットするために、単純でモチベーションのよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-20T23:44:30Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - Greedy structure learning from data that contains systematic missing
values [13.088541054366527]
欠落した値を含むデータから学ぶことは、多くの領域でよくある現象である。
比較的少数のベイジアンネットワーク構造学習アルゴリズムが欠落データの原因となっている。
本稿では,2対の削除と逆確率重み付けを利用したグリージー検索構造学習の3つの変種について述べる。
論文 参考訳(メタデータ) (2021-07-09T02:56:44Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z) - On the consistency of supervised learning with missing values [15.666860186278782]
多くのアプリケーション設定において、データは分析を難しくするエントリを欠いている。
ここでは、教師あり学習の設定について考察する。トレーニングデータとテストデータの両方に、欠落した値が現れるときにターゲットを予測する。
本研究では,学習前の平均値など,一定値が得られない場合に一定であることを示す。
論文 参考訳(メタデータ) (2019-02-19T07:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。