論文の概要: TabDLM: Free-Form Tabular Data Generation via Joint Numerical-Language Diffusion
- arxiv url: http://arxiv.org/abs/2602.22586v1
- Date: Thu, 26 Feb 2026 03:41:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.51461
- Title: TabDLM: Free-Form Tabular Data Generation via Joint Numerical-Language Diffusion
- Title(参考訳): TabDLM: 連成数値言語拡散による自由形語彙データ生成
- Authors: Donghong Cai, Jiarui Feng, Yanbo Wang, Da Zheng, Yixin Chen, Muhan Zhang,
- Abstract要約: 実世界のデータセットは、構造化された数値と分類属性とともに、自由形式のテキストフィールドを徐々に含んでいる。
既存のアプローチは拡散法とLLM法という2つのカテゴリに分類される。
連立数値言語拡散モデルを用いた自由形式の表形式データ生成のための統合フレームワークであるTabDLMを提案する。
- 参考スコア(独自算出の注目度): 45.45604062258755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic tabular data generation has attracted growing attention due to its importance for data augmentation, foundation models, and privacy. However, real-world tabular datasets increasingly contain free-form text fields (e.g., reviews or clinical notes) alongside structured numerical and categorical attributes. Generating such heterogeneous tables with joint modeling of different modalities remains challenging. Existing approaches broadly fall into two categories: diffusion-based methods and LLM-based methods. Diffusion models can capture complex dependencies over numerical and categorical features in continuous or discrete spaces, but extending them to open-ended text is nontrivial and often leads to degraded text quality. In contrast, LLM-based generators naturally produce fluent text, yet their discrete tokenization can distort precise or wide-range numerical values, hindering accurate modeling of both numbers and language. In this work, we propose TabDLM, a unified framework for free-form tabular data generation via a joint numerical--language diffusion model built on masked diffusion language models (MDLMs). TabDLM models textual and categorical features through masked diffusion, while modeling numerical features with a continuous diffusion process through learned specialized numeric tokens embedding; bidirectional attention then captures cross-modality interactions within a single model. Extensive experiments on diverse benchmarks demonstrate the effectiveness of TabDLM compared to strong diffusion- and LLM-based baselines.
- Abstract(参考訳): 合成表データ生成は、データ拡張、基礎モデル、プライバシの重要性から、注目を集めている。
しかし、現実の表形式のデータセットは、構造化された数値と分類属性とともに、自由形式のテキストフィールド(例えば、レビューや臨床ノート)を徐々に含んでいる。
このような不均一なテーブルを異なるモジュラリティのジョイントモデリングで生成することは依然として困難である。
既存のアプローチは拡散法とLLM法という2つのカテゴリに分類される。
拡散モデルは連続的または離散的な空間における数値的および分類的特徴に対する複雑な依存関係をキャプチャすることができるが、それらをオープンエンドテキストに拡張することは簡単ではなく、しばしば劣化したテキスト品質につながる。
対照的に、LLMベースのジェネレータは自然に流動的なテキストを生成するが、それらの離散トークン化は正確な数値または広範囲の数値を歪め、数と言語の両方の正確なモデリングを妨げる。
本研究では,マスク付き拡散言語モデル(MDLM)上に構築された連成数値言語拡散モデルを用いて,自由形式の表形式データ生成のための統一フレームワークであるTabDLMを提案する。
TabDLMは、マスク付き拡散を通じてテキストおよびカテゴリの特徴をモデル化し、学習された特殊な数値トークンを埋め込んで連続的な拡散プロセスで数値的特徴をモデル化する。
多様なベンチマークによる大規模な実験により,TabDLMは強い拡散・LDMベースラインと比較して有効であることが示された。
関連論文リスト
- A Note on Statistically Accurate Tabular Data Generation Using Large Language Models [0.0]
この研究は、大規模言語モデルを利用して条件分布を推定する確率駆動的プロンプト手法を導入する。
その結果,大規模言語モデルが生成するデータの統計的忠実度を高めるために,確率分布の促進の可能性を強調した。
論文 参考訳(メタデータ) (2025-05-05T14:05:15Z) - LLM-TabLogic: Preserving Inter-Column Logical Relationships in Synthetic Tabular Data via Prompt-Guided Latent Diffusion [49.898152180805454]
合成データセットはドメイン固有の論理的一貫性を維持する必要がある。
既存の生成モデルは、しばしばこれらのカラム間の関係を見落としている。
本研究では,ドメイン知識を必要とせずに列間関係を効果的に維持する手法を提案する。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - TabGLM: Tabular Graph Language Model for Learning Transferable Representations Through Multi-Modal Consistency Minimization [2.1067477213933503]
TabGLM (Tabular Graph Language Model) はテーブルの構造情報と意味情報の両方をモデル化する新しいマルチモーダルアーキテクチャである。
テーブルの各行を完全に連結されたグラフとシリアライズされたテキストに変換し、それぞれグラフニューラルネットワーク(GNN)とテキストエンコーダを使って符号化する。
25のベンチマークデータセットに対する評価は、大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2025-02-26T05:32:45Z) - TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - ERASMO: Leveraging Large Language Models for Enhanced Clustering Segmentation [0.0]
クラスタ分析は、マーケティングにおける顧客セグメンテーションなど、さまざまなドメインやアプリケーションにおいて重要な役割を果たす。
本研究では,テキストエンコードされたデータに基づいて事前学習した言語モデルを微調整するフレームワークであるERASMOを紹介する。
論文 参考訳(メタデータ) (2024-10-01T00:37:16Z) - FedTabDiff: Federated Learning of Diffusion Probabilistic Models for
Synthetic Mixed-Type Tabular Data Generation [5.824064631226058]
textitFederated Tabular Diffusion (FedTabDiff) を導入し、元のデータセットに一元的にアクセスすることなく、高忠実な混合型表型データを生成する。
FedTabDiffは、データプライバシとローカリティを尊重しながら、複数のエンティティが共同で生成モデルをトレーニングできるようにする分散学習方式を実現する。
実世界の金融および医療データセットに関する実験的評価は、高い忠実性、ユーティリティ、プライバシ、カバレッジを維持する合成データを生成するフレームワークの能力を実証している。
論文 参考訳(メタデータ) (2024-01-11T21:17:50Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。