論文の概要: MissHDD: Hybrid Deterministic Diffusion for Hetrogeneous Incomplete Data Imputation
- arxiv url: http://arxiv.org/abs/2511.14543v1
- Date: Tue, 18 Nov 2025 14:44:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.160402
- Title: MissHDD: Hybrid Deterministic Diffusion for Hetrogeneous Incomplete Data Imputation
- Title(参考訳): MissHDD : 異種不完全データインプットのためのハイブリッド決定論的拡散
- Authors: Youran Zhou, Mohamed Reda Bouadjenek, Sunil Aryal,
- Abstract要約: 異種特徴を2つの相補的生成チャネルに分離するハイブリッド決定論的拡散フレームワークを提案する。
DDIMに基づく連続チャネルは、数値変数に対して効率的で安定な決定論的記述を提供する。
ループホリングに基づく離散拡散にインスパイアされた離散潜在経路拡散チャネルは、有効なサンプルを残さずにカテゴリー的および離散的特徴をモデル化する。
2つのチャネルは、統一された条件計算目的の下で訓練され、混合型不完全データのコヒーレントな再構成を可能にする。
- 参考スコア(独自算出の注目度): 4.935498694293104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Incomplete data are common in real-world tabular applications, where numerical, categorical, and discrete attributes coexist within a single dataset. This heterogeneous structure presents significant challenges for existing diffusion-based imputation models, which typically assume a homogeneous feature space and rely on stochastic denoising trajectories. Such assumptions make it difficult to maintain conditional consistency, and they often lead to information collapse for categorical variables or instability when numerical variables require deterministic updates. These limitations indicate that a single diffusion process is insufficient for mixed-type tabular imputation. We propose a hybrid deterministic diffusion framework that separates heterogeneous features into two complementary generative channels. A continuous DDIM-based channel provides efficient and stable deterministic denoising for numerical variables, while a discrete latent-path diffusion channel, inspired by loopholing-based discrete diffusion, models categorical and discrete features without leaving their valid sample manifolds. The two channels are trained under a unified conditional imputation objective, enabling coherent reconstruction of mixed-type incomplete data. Extensive experiments on multiple real-world datasets show that the proposed framework achieves higher imputation accuracy, more stable sampling trajectories, and improved robustness across MCAR, MAR, and MNAR settings compared with existing diffusion-based and classical methods. These results demonstrate the importance of structure-aware diffusion processes for advancing deep learning approaches to incomplete tabular data.
- Abstract(参考訳): 不完全データは、数値的、分類的、離散的な属性が1つのデータセット内で共存する現実世界の表型アプリケーションで一般的である。
このヘテロジニアス構造は、通常同質な特徴空間を仮定し、確率的 denoising trajectories に依存する、既存の拡散ベースの計算モデルに重大な課題をもたらす。
このような仮定は条件の整合性を維持するのを難しくし、数値変数が決定論的更新を必要とする場合、分類変数や不安定性の情報の崩壊につながることが多い。
これらの制限は、混合型表層計算には単一の拡散過程が不十分であることを示している。
異種特徴を2つの相補的生成チャネルに分離するハイブリッド決定論的拡散フレームワークを提案する。
連続DDIMに基づくチャネルは、数値変数に対して効率的で安定な決定論的記述を提供する一方、ループホリングに基づく離散拡散にインスパイアされた離散潜在パス拡散チャネルは、有効なサンプル多様体を残さずにカテゴリー的および離散的特徴をモデル化する。
2つのチャネルは、統一された条件計算目的の下で訓練され、混合型不完全データのコヒーレントな再構成を可能にする。
複数の実世界のデータセットに対する大規模な実験により、提案フレームワークは、既存の拡散法や古典的手法と比較して、高い計算精度、より安定したサンプリング軌道、MCAR、MAR、MNAR設定における堅牢性の向上を実現している。
これらの結果から,非完全表型データへの深層学習手法の進化における構造認識拡散プロセスの重要性が示唆された。
関連論文リスト
- Authentic Discrete Diffusion Model [72.31371542619121]
認証離散拡散(ADD)フレームワークは、従来の擬似離散的アプローチを再定義する。
ADDはフロートエンコードされたワンホットクラスデータを直接使用して拡散入力を再構成する。
実験により、ADDはベースラインと比較して分類タスクにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-10-01T15:51:10Z) - MissDDIM: Deterministic and Efficient Conditional Diffusion for Tabular Data Imputation [2.124791625488617]
表計算にDenoising Diffusion Implicit Models(DDIM)を適用する条件拡散フレームワークMissDDIMを提案する。
サンプリングは多様な補完を可能にするが、下流処理を複雑にする出力の可変性も導入している。
論文 参考訳(メタデータ) (2025-08-05T04:55:26Z) - Interleaved Gibbs Diffusion: Generating Discrete-Continuous Data with Implicit Constraints [30.624303845550575]
Interleaved Gibbs Diffusion (IGD)は、離散連続データのための新しい生成モデリングフレームワークである。
IGDは離散時間ギブスサンプリング型マルコフ連鎖を離散連続生成の場合に一般化する。
ドメイン固有の帰納バイアスに頼ることなく、最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-02-19T05:51:24Z) - Continuous Diffusion Model for Language Modeling [64.7425225935854]
離散的データに対する既存の連続拡散モデルは離散的手法と比較して性能が劣る。
本稿では,下層の分類分布の幾何学を組み込んだ言語モデリングのための連続拡散モデルを提案する。
本手法は,既存の離散拡散モデルより優れ,自己回帰モデルの性能にアプローチする。
論文 参考訳(メタデータ) (2025-02-17T08:54:29Z) - TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - Latent Space Score-based Diffusion Model for Probabilistic Multivariate Time Series Imputation [6.9295879301090535]
確率的時系列計算のための遅延空間スコアベース拡散モデル(LSSDM)を提案する。
LSSDMは、計算機構のより良い説明と不確実性解析を提供しながら、優れた計算性能を実現する。
論文 参考訳(メタデータ) (2024-09-13T15:32:26Z) - DiffPuter: Empowering Diffusion Models for Missing Data Imputation [56.48119008663155]
本稿ではDiffPuterについて紹介する。DiffPuterは、データ計算の欠如に対する期待最大化(EM)アルゴリズムと組み合わせた、カスタマイズされた拡散モデルである。
我々の理論的解析は、DiffPuterのトレーニングステップがデータ密度の最大推定値に対応することを示している。
DiffPuterは,最も競争力のある既存手法と比較して,MAEが6.94%,RMSEが4.78%向上した。
論文 参考訳(メタデータ) (2024-05-31T08:35:56Z) - Generative inpainting of incomplete Euclidean distance matrices of trajectories generated by a fractional Brownian motion [46.1232919707345]
フラクショナルブラウン運動(fBm)はランダム性と強いスケールフリーの相関を特徴とする。
本稿では, 劣化した画像の特定のデータセット上で, 拡散に基づく塗布方法の動物園について検討する。
条件拡散生成は、異なるメモリ状態におけるfBmパスの組込み相関を容易に再現する。
論文 参考訳(メタデータ) (2024-04-10T14:22:16Z) - Uncertainty-Based Extensible Codebook for Discrete Federated Learning in Heterogeneous Data Silos [11.443755718706562]
巨大な分散データセットを活用することを目的としたフェデレーション学習は、さまざまなサイロにまたがるデータの均一性という、重要な課題に直面している。
本稿では,emphUncertainty-Based Extensible-Codebook Federated Learning (UEFL)と呼ばれる,革新的で簡単な反復型フレームワークを提案する。
このフレームワークは遅延特徴をトレーニング可能な離散ベクトルに動的にマッピングし、不確実性を評価し、特に不確実性を示すサイロの離散化辞書やコードブックを拡張する。
論文 参考訳(メタデータ) (2024-02-29T06:13:10Z) - Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。
条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。
提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文 参考訳(メタデータ) (2022-11-30T05:33:29Z) - Diffusion-GAN: Training GANs with Diffusion [135.24433011977874]
GAN(Generative Adversarial Network)は、安定してトレーニングすることが難しい。
フォワード拡散チェーンを利用してインスタンスノイズを生成する新しいGANフレームワークであるDiffusion-GANを提案する。
我々は,Diffusion-GANにより,最先端のGANよりも高い安定性とデータ効率で,よりリアルな画像を生成することができることを示す。
論文 参考訳(メタデータ) (2022-06-05T20:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。