論文の概要: Cascaded Flow Matching for Heterogeneous Tabular Data with Mixed-Type Features
- arxiv url: http://arxiv.org/abs/2601.22816v1
- Date: Fri, 30 Jan 2026 10:42:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.391109
- Title: Cascaded Flow Matching for Heterogeneous Tabular Data with Mixed-Type Features
- Title(参考訳): 混合型特徴を持つ不均一な語彙データに対するカスケードフローマッチング
- Authors: Markus Mueller, Kathrin Gruber, Dennis Fok,
- Abstract要約: 我々は,グラフデータに対する拡散モデルの現状をカスケード的アプローチで進める。
数値特徴の低分解能表現は、欠落や膨らんだ値などの離散的な結果を説明する。
結果は,本モデルがより現実的なサンプルを生成し,より正確に分布の詳細を把握できることを示唆している。
- 参考スコア(独自算出の注目度): 5.620334754517149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in generative modeling have recently been adapted to tabular data containing discrete and continuous features. However, generating mixed-type features that combine discrete states with an otherwise continuous distribution in a single feature remains challenging. We advance the state-of-the-art in diffusion models for tabular data with a cascaded approach. We first generate a low-resolution version of a tabular data row, that is, the collection of the purely categorical features and a coarse categorical representation of numerical features. Next, this information is leveraged in the high-resolution flow matching model via a novel guided conditional probability path and data-dependent coupling. The low-resolution representation of numerical features explicitly accounts for discrete outcomes, such as missing or inflated values, and therewith enables a more faithful generation of mixed-type features. We formally prove that this cascade tightens the transport cost bound. The results indicate that our model generates significantly more realistic samples and captures distributional details more accurately, for example, the detection score increases by 40%.
- Abstract(参考訳): 生成モデリングの進歩は、最近、離散的かつ連続的な特徴を含む表データに適用されている。
しかし、離散状態とそれ以外は連続的な分布を1つの特徴で組み合わせた混合型特徴の生成は、依然として困難である。
我々は,グラフデータに対する拡散モデルの現状をカスケード的アプローチで進める。
我々はまず,まず,表型データ列の低解像度版,すなわち,純粋に分類的特徴の集合と,数値的特徴の粗い分類的表現を生成する。
次に、この情報は、新しいガイド付き条件付き確率パスとデータ依存結合を介して、高分解能フローマッチングモデルで活用される。
数値特徴の低分解能表現は、不足や膨らんだ値などの離散的な結果を明示的に説明し、それによってより忠実な混合型特徴の生成を可能にする。
このカスケードが輸送コストを制限していることを正式に証明します。
その結果,本モデルでは,より現実的なサンプルが生成され,より正確に分布の詳細を把握でき,例えば,検出スコアが40%向上することがわかった。
関連論文リスト
- Diffusion-Driven High-Dimensional Variable Selection [6.993247097440294]
本稿では,高忠実度合成データを生成する拡散モデルの能力を生かした再サンプル集約フレームワークを提案する。
提案手法は軽微な仮定の下で一貫した選択であることを示す。
本手法は,変数選択手法を改良し,統計的に厳密な解析を行うためのツールキットを拡充する。
論文 参考訳(メタデータ) (2025-08-19T14:54:20Z) - TabRep: Training Tabular Diffusion Models with a Simple and Effective Continuous Representation [16.907006955584343]
拡散モデルはデータ生成の主要な生成モデルである。
統一された連続表現で訓練されたトレーニングアーキテクチャであるTabRepを紹介する。
この結果から,TabRepは幅広い評価スイートにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-04-07T07:44:27Z) - TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - Discrete Flow Matching [74.04153927689313]
本稿では,離散データ生成に特化して設計された新しい離散フローパラダイムを提案する。
我々のアプローチは、非自己回帰的な方法で高品質な離散データを生成することができる。
論文 参考訳(メタデータ) (2024-07-22T12:33:27Z) - Continuous Diffusion for Mixed-Type Tabular Data [2.7992435001846827]
混合型タブラリデータのための連続拡散モデルCDTDを提案する。
連続的特徴とカテゴリー的特徴の両方に統一された連続的雑音分布を付与するスコアマッチングとスコアの新たな組み合わせに基づいている。
実験の結果,CDTDは最先端のベンチマークモデルより一貫して優れていた。
論文 参考訳(メタデータ) (2023-12-16T12:21:03Z) - Generalization Bound for Diffusion Models using Random Features [0.0]
本稿では,拡散モデルにインスパイアされた深部ランダム特徴モデルを提案する。
サンプルデータの分布と真の分布との一般化境界をスコアマッチングの特性を用いて導出する。
ファッションMNISTデータセットとインストゥルメンタルオーディオデータに基づいてサンプルを生成し,本研究の検証を行った。
論文 参考訳(メタデータ) (2023-10-06T17:59:05Z) - ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。
我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文 参考訳(メタデータ) (2023-04-07T15:17:48Z) - Score Approximation, Estimation and Distribution Recovery of Diffusion
Models on Low-Dimensional Data [68.62134204367668]
本稿では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルのスコア近似,推定,分布回復について検討する。
適切に選択されたニューラルネットワークアーキテクチャでは、スコア関数を正確に近似し、効率的に推定することができる。
推定スコア関数に基づいて生成された分布は、データ幾何学構造を捕捉し、データ分布の近傍に収束する。
論文 参考訳(メタデータ) (2023-02-14T17:02:35Z) - Breaking the Spurious Causality of Conditional Generation via Fairness
Intervention with Corrective Sampling [77.15766509677348]
条件生成モデルは、トレーニングデータセットから急激な相関を継承することが多い。
これは別の潜在属性に対して不均衡なラベル条件分布をもたらす。
この問題を緩和するための一般的な2段階戦略を提案する。
論文 参考訳(メタデータ) (2022-12-05T08:09:33Z) - Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。
条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。
提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文 参考訳(メタデータ) (2022-11-30T05:33:29Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。