論文の概要: Cascaded Flow Matching for Heterogeneous Tabular Data with Mixed-Type Features
- arxiv url: http://arxiv.org/abs/2601.22816v1
- Date: Fri, 30 Jan 2026 10:42:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.391109
- Title: Cascaded Flow Matching for Heterogeneous Tabular Data with Mixed-Type Features
- Title(参考訳): 混合型特徴を持つ不均一な語彙データに対するカスケードフローマッチング
- Authors: Markus Mueller, Kathrin Gruber, Dennis Fok,
- Abstract要約: 我々は,グラフデータに対する拡散モデルの現状をカスケード的アプローチで進める。
数値特徴の低分解能表現は、欠落や膨らんだ値などの離散的な結果を説明する。
結果は,本モデルがより現実的なサンプルを生成し,より正確に分布の詳細を把握できることを示唆している。
- 参考スコア(独自算出の注目度): 5.620334754517149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in generative modeling have recently been adapted to tabular data containing discrete and continuous features. However, generating mixed-type features that combine discrete states with an otherwise continuous distribution in a single feature remains challenging. We advance the state-of-the-art in diffusion models for tabular data with a cascaded approach. We first generate a low-resolution version of a tabular data row, that is, the collection of the purely categorical features and a coarse categorical representation of numerical features. Next, this information is leveraged in the high-resolution flow matching model via a novel guided conditional probability path and data-dependent coupling. The low-resolution representation of numerical features explicitly accounts for discrete outcomes, such as missing or inflated values, and therewith enables a more faithful generation of mixed-type features. We formally prove that this cascade tightens the transport cost bound. The results indicate that our model generates significantly more realistic samples and captures distributional details more accurately, for example, the detection score increases by 40%.
- Abstract(参考訳): 生成モデリングの進歩は、最近、離散的かつ連続的な特徴を含む表データに適用されている。
しかし、離散状態とそれ以外は連続的な分布を1つの特徴で組み合わせた混合型特徴の生成は、依然として困難である。
我々は,グラフデータに対する拡散モデルの現状をカスケード的アプローチで進める。
我々はまず,まず,表型データ列の低解像度版,すなわち,純粋に分類的特徴の集合と,数値的特徴の粗い分類的表現を生成する。
次に、この情報は、新しいガイド付き条件付き確率パスとデータ依存結合を介して、高分解能フローマッチングモデルで活用される。
数値特徴の低分解能表現は、不足や膨らんだ値などの離散的な結果を明示的に説明し、それによってより忠実な混合型特徴の生成を可能にする。
このカスケードが輸送コストを制限していることを正式に証明します。
その結果,本モデルでは,より現実的なサンプルが生成され,より正確に分布の詳細を把握でき,例えば,検出スコアが40%向上することがわかった。
関連論文リスト
- TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - Continuous Diffusion for Mixed-Type Tabular Data [2.7992435001846827]
混合型タブラリデータのための連続拡散モデルCDTDを提案する。
連続的特徴とカテゴリー的特徴の両方に統一された連続的雑音分布を付与するスコアマッチングとスコアの新たな組み合わせに基づいている。
実験の結果,CDTDは最先端のベンチマークモデルより一貫して優れていた。
論文 参考訳(メタデータ) (2023-12-16T12:21:03Z) - ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。
我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文 参考訳(メタデータ) (2023-04-07T15:17:48Z) - Breaking the Spurious Causality of Conditional Generation via Fairness
Intervention with Corrective Sampling [77.15766509677348]
条件生成モデルは、トレーニングデータセットから急激な相関を継承することが多い。
これは別の潜在属性に対して不均衡なラベル条件分布をもたらす。
この問題を緩和するための一般的な2段階戦略を提案する。
論文 参考訳(メタデータ) (2022-12-05T08:09:33Z) - Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。
条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。
提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文 参考訳(メタデータ) (2022-11-30T05:33:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。