論文の概要: TabSODA: Tabular Diffusion based Imputation with Skip Pattern Detection and Ordinal Awareness
- arxiv url: http://arxiv.org/abs/2606.05361v1
- Date: Wed, 03 Jun 2026 19:09:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.350926
- Title: TabSODA: Tabular Diffusion based Imputation with Skip Pattern Detection and Ordinal Awareness
- Title(参考訳): TabSODA:スイップパターン検出と正規認識を併用したタブラリディフュージョンに基づくインパテーション
- Authors: Yuyu Chen, Taehyo Kim, Hai Shu, Yang Feng,
- Abstract要約: textbfTabSODA (textbfTabular diffusion with textbfSkip pattern detection and textbfOrtextbfdinal textbfAwareness) を導入する。
- 参考スコア(独自算出の注目度): 12.282281824877407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Missing data imputation in large-scale surveys faces two challenges that are not well handled by current tabular diffusion methods. First, \emph{structural skips}, cells made inapplicable by questionnaire design, should not be imputed but are often conflated with item nonresponse. Second, \emph{ordinal} responses encode ordered categories, yet most pipelines treat them as nominal levels through one-hot or analog-bit encodings. We introduce \textbf{TabSODA} (\textbf{Tab}ular diffusion with \textbf{S}kip pattern detection and \textbf{O}r\textbf{d}inal \textbf{A}wareness), an Expectation-Maximization (EM)-based diffusion imputer built on the Elucidated Diffusion Model (EDM) framework. TabSODA propagates structural skips through the denoising loss and reverse-time sampler, and represents ordinal variables with cumulative-probit scalar latents while retaining analog-bit encodings for nominal variables. When a codebook skip mask is available, TabSODA uses it directly; otherwise, the TabSODA+SKIP variant estimates the mask from raw responses and questionnaire order using a CART-based skip-pattern miner. On Population Assessment of Tobacco and Health (PATH) study and the National Survey on Drug Use and Health (NSDUH), two nationally representative U.S.\ surveys, TabSODA reduces ordinal MACE by up to $23.7\%$ and improves categorical accuracy by up to $9\%$ over the strongest baseline across MCAR, MAR, and MNAR masking. The skip miner achieves near-perfect precision on both datasets, allowing TabSODA+SKIP to closely track the codebook-mask variant.
- Abstract(参考訳): 大規模調査におけるデータ計算の欠如は、現在の表層拡散法ではうまく扱えない2つの課題に直面している。
第一に、アンケート設計で適用できない細胞である 'emph{structureural skips} は、インプットされるべきではないが、アイテム非応答と混同されることが多い。
第二に、\emph{ordinal} 応答は順序付けられたカテゴリを符号化するが、ほとんどのパイプラインは1ホットまたはアナログビットエンコーディングによって名目レベルとして扱う。
我々は,Eucidated Diffusion Model (EDM) フレームワーク上に構築された期待最大化(EM)ベースの拡散インプタである \textbf{TabSODA} (\textbf{Tab}ular diffusion with \textbf{S}kip pattern detection and \textbf{O}r\textbf{d}inal \textbf{A}wareness)を紹介する。
TabSODAは、劣化損失と逆時間サンプリング器を通して構造的スキップを伝播し、名詞変数のアナログビットエンコーディングを保持しながら累積プロビットのラテラントを持つ順序変数を表現している。
コードブックのスキップマスクが利用できる場合、TabSODAは直接それを使用する。そうでなければ、TabSODA+SKIP変種は、CARTベースのスキップパターンマイナを使用して、生の応答と質問順からマスクを推定する。
Tobacco and Health (PATH) 調査と全米薬物使用および健康に関する全国調査 (NSDUH) では、TabSODA は、MCAR、MAR、MNARのマスキングで最強のベースラインを超越した分類精度を最大で最大で2,3.7 %まで削減し、分類精度を最大9 %改善している。
スキップマイナは両方のデータセットでほぼ完全な精度を実現し、TabSODA+SKIPはコードブックマスクの変種を綿密に追跡できる。
関連論文リスト
- Towards Pretraining Text Encoders for TabPFN [78.5840707720685]
TabPFNのようなタブラル基礎モデルは、数値データと分類データを持つデータセット上で強力なパフォーマンスを達成する。
TabPFN Text Adapter (text-to-TFM token projection) を導入する。
この設計はPCAのボトルネックを排除し、TabPFNの数値的な強みを保ち、エンドツーエンドのテキストタブラルパイプラインよりも訓練が効率的である。
論文 参考訳(メタデータ) (2026-06-03T13:38:47Z) - LimiX-2M: Mitigating Low-Rank Collapse and Attention Bottlenecks in Tabular Foundation Models [56.999481798138625]
LimiX-2Mは2Mパラメータモデルであり、広く使われているベンチマークでTabPFN-v2とTabICLのベースラインを上回っている。
本稿では,強力なタブラル基礎モデル(TFM)のための統一トークン化・ルートフレームワークを提案する。
その結果、TFMにおける精度-効率トレードオフを改善するキーレバーとして、バリューアウェアトークン化とリードアウト整列ルーティングが強調された。
論文 参考訳(メタデータ) (2026-06-03T06:07:33Z) - TabSCM: A practical Framework for Generating Realistic Tabular Data [22.41489215805826]
因果依存性を保存する混合型ジェネレータであるTabSCMを提案する。
7つの公開データセットでは、TabSCMは最先端のGAN、拡散、LLMベースラインを統計的忠実度で一致または超えている。
生成は明示的な方程式に分解されるので、拡散のみのモデルよりも583$times$高速に実行される。
論文 参考訳(メタデータ) (2026-04-24T08:10:01Z) - TabSHAP [5.3259362673757735]
大規模な言語モデルは、伝統的なツリーベースのモデルに代わる強力な選択肢として現れています。
既存の手法は、しばしば大域的な線形プロキシやスカラー確率シフトに頼り、モデルの完全な確率的不確実性を捉えるのに失敗する。
本稿では,ローカルクエリ決定ロジックを直接属性として設計したモデルに依存しない解釈可能性フレームワークであるTabSHAPを紹介する。
論文 参考訳(メタデータ) (2026-04-22T22:04:45Z) - Adaptation to Intrinsic Dependence in Diffusion Language Models [5.185131234265025]
拡散言語モデル(DLM)は自己回帰(AR)アプローチに代わる有望な代替手段として登場した。
対象データ分布の(未知の)依存構造に適応するDLMの分布に依存しないアンマスキングスケジュールを提案する。
この結果は, 先行収束理論を著しく改善し, 低複雑さ分布に対する相当なサンプリング加速を得た。
論文 参考訳(メタデータ) (2026-02-23T18:41:34Z) - To Predict or Not To Predict? Proportionally Masked Autoencoders for Tabular Data Imputation [5.541591807276181]
マスク付きオートエンコーダ(MAE)の比例マスキング戦略を提案する。
具体的には、まず、観測されたデータセットの比率に基づいて、欠落の統計を計算する。
そして、これらの統計値に一致したマスクを生成し、マスキング後に欠落の分布を確実に保持する。
論文 参考訳(メタデータ) (2024-12-26T10:12:08Z) - TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - MediTab: Scaling Medical Tabular Data Predictors via Data Consolidation, Enrichment, and Refinement [44.693325083735424]
患者の健康リスク予測などの医療応用において,タブラルデータ予測が採用されている。
以前の予測子は、手動でキュレートされた小さなデータセットでトレーニングされることが多い。
論文 参考訳(メタデータ) (2023-05-20T03:37:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。