論文の概要: AugMask: Training Diffusion Models on Incomplete Tabular Data via Stochastic Augmentation and Masking
- arxiv url: http://arxiv.org/abs/2606.03347v1
- Date: Tue, 02 Jun 2026 08:57:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.885838
- Title: AugMask: Training Diffusion Models on Incomplete Tabular Data via Stochastic Augmentation and Masking
- Title(参考訳): AugMask:確率的拡張とマスキングによる不完全語彙データの拡散モデルの訓練
- Authors: Jungkyu Kim, Taeyoung Park, Kibok Lee,
- Abstract要約: AugMaskは、コンディショニングを監督から切り離して不完全なデータに適用するトレーニングフレームワークである。
欠落点の辺縁化は差分重み付き感度のペナルティをもたらし,不確実な完了に対する過度な信頼を損なうことを示す。
- 参考スコア(独自算出の注目度): 10.623197357432584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Score-based diffusion models have emerged as prominent deep generative models; however, their application to tabular data remains challenging because their backbones assume fully specified inputs, whereas real-world tabular data often contain missing values. We propose AugMask, a plug-and-play training framework that adapts missing-unaware backbones to incomplete data by separating conditioning from supervision. AugMask 1) constructs numeric inputs via conditional stochastic augmentation using lightweight auxiliary models, and 2) applies denoising supervision only to observed coordinates. In effect, augmented missing entries serve as uncertain conditioning context rather than training targets. We connect this training rule to a Rao--Blackwellized objective and show that marginalizing missing entries yields a variance-weighted sensitivity penalty, discouraging over-reliance on uncertain completions. Across diverse datasets and missingness regimes, AugMask enables standard diffusion-based tabular generators to outperform specialized missing-aware baselines.
- Abstract(参考訳): スコアベース拡散モデルは顕著な深層生成モデルとして現れてきたが、バックボーンが完全な入力を前提としているのに対して、現実の表層データには欠落する値が含まれているため、表層データへの適用は依然として困難である。
AugMaskは、不完全なデータに無意識のバックボーンを適応させ、コンディショニングを監督から切り離すことにより、プラグアンドプレイのトレーニングフレームワークである。
AugMask
1)軽量補助モデルを用いた条件付き確率拡張による数値入力の構築、及び
2) 監督は、観察された座標のみに適用される。
事実上、強化された欠落したエントリは、トレーニングターゲットではなく、不確実な条件付けコンテキストとして機能する。
このトレーニングルールをRao-Blackwellizedの目的に結び付けて、欠落したエントリの残差が分散重み付けされた感度のペナルティをもたらし、不確実な完了に対する過度な信頼を妨げていることを示す。
AugMaskは、さまざまなデータセットと欠落状況にまたがって、標準拡散ベースのタブ型ジェネレータにより、特殊な欠落を意識したベースラインを上回るパフォーマンスを実現している。
関連論文リスト
- MaskTab: Scalable Masked Tabular Pretraining with Scaling Laws and Distillation for Industrial Classification [15.322364163389393]
MaskTabは、専用の学習可能なトークンを通じて、欠落した値をエンコードする。
工業規模のベンチマークでは、AUCは+5.04%、KSは+8.28%に達する。
論文 参考訳(メタデータ) (2026-05-12T01:56:04Z) - Order-Agnostic Autoregressive Modelling with Missing Data [12.971361761803891]
本研究では,無秩序な自己回帰モデルが,無作為なランダムな機構の下で暗黙的に不規則化を行うことを示す。
一般的な欠落メカニズムの下で、不完全なデータセットを直接トレーニングするための、最初の原則付きフレームワークを紹介します。
私たちのMissingness-Aware Order-Agnostic Autoregressive Modelは、実世界のベンチマークの中で、確立された計算基準よりも一貫して優れています。
論文 参考訳(メタデータ) (2026-05-07T14:34:08Z) - Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z) - Impute-MACFM: Imputation based on Mask-Aware Flow Matching [1.9483189922830135]
Impute-MACFMは、表計算のための条件付きフローマッチングフレームワークである。
無作為性、無作為性、無作為性、無作為性、無作為性に対処する。
軌道は欠落したエントリのみに設定され、予測速度は観測されたエントリでほぼゼロに抑えられる。
論文 参考訳(メタデータ) (2025-09-27T05:15:09Z) - MissDDIM: Deterministic and Efficient Conditional Diffusion for Tabular Data Imputation [2.124791625488617]
表計算にDenoising Diffusion Implicit Models(DDIM)を適用する条件拡散フレームワークMissDDIMを提案する。
サンプリングは多様な補完を可能にするが、下流処理を複雑にする出力の可変性も導入している。
論文 参考訳(メタデータ) (2025-08-05T04:55:26Z) - MissDiff: Training Diffusion Models on Tabular Data with Missing Values [29.894691645801597]
この研究は、欠落した値を持つデータから学習するための統一的で原則化された拡散ベースのフレームワークを示す。
まず、広く採用されている「インプット・ザ・ジェネレーション」パイプラインが、バイアスのある学習目標に繋がる可能性があることを観察する。
提案手法は,データ分布のスコアの学習に一貫性があることを証明し,提案手法は特定の場合において負の確率の上限として機能する。
論文 参考訳(メタデータ) (2023-07-02T03:49:47Z) - On-the-fly Denoising for Data Augmentation in Natural Language
Understanding [101.46848743193358]
よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。
本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2022-12-20T18:58:33Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。