Fugu-MT 論文翻訳(概要): TabRep: a Simple and Effective Continuous Representation for Training Tabular Diffusion Models

論文の概要: TabRep: a Simple and Effective Continuous Representation for Training Tabular Diffusion Models

arxiv url: http://arxiv.org/abs/2504.04798v2
Date: Tue, 08 Apr 2025 15:10:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-17 07:05:29.049626
Title: TabRep: a Simple and Effective Continuous Representation for Training Tabular Diffusion Models
Title（参考訳）: TabRep: タブラリ拡散モデルの簡易かつ効果的な連続表現
Authors: Jacob Si, Zijing Ou, Mike Qu, Zhengrui Xiang, Yingzhen Li,
Abstract要約: 拡散モデルはデータ生成の主要な生成モデルである。統一された連続表現で訓練されたトレーニングアーキテクチャであるTabRepを紹介する。この結果から,TabRepは幅広い評価スイートにおいて優れた性能を発揮することが示された。
参考スコア（独自算出の注目度）: 16.907006955584343
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion models have been the predominant generative model for tabular data generation. However, they face the conundrum of modeling under a separate versus a unified data representation. The former encounters the challenge of jointly modeling all multi-modal distributions of tabular data in one model. While the latter alleviates this by learning a single representation for all features, it currently leverages sparse suboptimal encoding heuristics and necessitates additional computation costs. In this work, we address the latter by presenting TabRep, a tabular diffusion architecture trained with a unified continuous representation. To motivate the design of our representation, we provide geometric insights into how the data manifold affects diffusion models. The key attributes of our representation are composed of its density, flexibility to provide ample separability for nominal features, and ability to preserve intrinsic relationships. Ultimately, TabRep provides a simple yet effective approach for training tabular diffusion models under a continuous data manifold. Our results showcase that TabRep achieves superior performance across a broad suite of evaluations. It is the first to synthesize tabular data that exceeds the downstream quality of the original datasets while preserving privacy and remaining computationally efficient.
Abstract（参考訳）: 拡散モデルが表データ生成の主要な生成モデルとなっている。しかし、それらは分離されたデータ表現と統一されたデータ表現の下のモデリングの難しさに直面します。前者は1つのモデルで全ての表データのマルチモーダル分布を共同でモデル化するという課題に遭遇する。後者は全ての特徴の1つの表現を学習することでこれを緩和するが、現在はスパース準最適符号化を利用しており、追加の計算コストを必要としている。本研究では,連続表現を統一的に訓練した表層拡散アーキテクチャであるTabRepを提示することにより,後者に対処する。表現の設計を動機付けるために,データ多様体が拡散モデルにどのように影響するかに関する幾何学的な洞察を提供する。我々の表現の重要な属性は、その密度、名目の特徴に対して十分な分離性を提供する柔軟性、本質的な関係を維持する能力から成り立っている。最終的に、TabRepは連続データ多様体の下で表層拡散モデルのトレーニングにシンプルだが効果的なアプローチを提供する。この結果から,TabRepは幅広い評価スイートにおいて優れた性能を発揮することが示された。プライバシを保ち、計算効率を保ちながら、元のデータセットの下流品質を超える表データを初めて合成する。

関連論文リスト

RelDiff: Relational Data Generative Modeling with Graph-Based Diffusion Models [83.6013616017646]
RelDiffは、外部キーグラフ構造を明示的にモデル化することによって完全な関係データベースを合成する新しい拡散生成モデルである。 RelDiffは、現実的で一貫性のある合成リレーショナルデータベースの作成において、従来手法よりも一貫して優れている。
論文参考訳（メタデータ） (2025-05-31T21:01:02Z)
Representation Learning for Tabular Data: A Comprehensive Survey [23.606506938919605]
行と列として構造化されたタブラルデータは、機械学習の分類と回帰アプリケーションにおいて最も一般的なデータタイプの一つである。ディープニューラルネットワーク(DNN)は、最近、表現学習の能力を通じて有望な結果を実証した。既存の手法を一般化能力に応じて3つの主要なカテゴリに分類する。
論文参考訳（メタデータ） (2025-04-17T17:58:23Z)
CtrTab: Tabular Data Synthesis with High-Dimensional and Limited Data [16.166752861658953]
データ次元が大きくなると、既存のモデルは縮退する傾向があり、単純な非拡散モデルよりもさらに悪いパフォーマンスを示す可能性がある。これは、高次元空間における限られたトレーニングサンプルが、しばしば生成モデルが分布を正確に捉えることを妨げているためである。我々は,高次元,低データシナリオにおける拡散型生成モデルの性能向上のために,CtrTabを提案する。
論文参考訳（メタデータ） (2025-03-09T05:01:56Z)
A Closer Look at TabPFN v2: Strength, Limitation, and Extension [51.08999772842298]
Tabular Prior-data Fitted Network v2 (TabPFN v2)は、複数のデータセットにまたがる前例のないコンテキスト内学習の精度を達成する。本稿では,300以上のデータセット上でTabPFN v2を評価し,中小規模タスクにおける例外的な一般化機能を確認する。
論文参考訳（メタデータ） (2025-02-24T17:38:42Z)
TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。 TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文参考訳（メタデータ） (2024-10-27T22:58:47Z)
Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。 DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文参考訳（メタデータ） (2024-03-11T14:07:53Z)
Debiasing Multimodal Models via Causal Information Minimization [65.23982806840182]
我々は、マルチモーダルデータのための因果グラフにおいて、共同創設者から生じるバイアスを研究する。ロバストな予測機能は、モデルがアウト・オブ・ディストリビューションデータに一般化するのに役立つ多様な情報を含んでいる。これらの特徴を共同設立者表現として使用し、因果理論によって動機づけられた手法を用いてモデルからバイアスを取り除く。
論文参考訳（メタデータ） (2023-11-28T16:46:14Z)
MissDiff: Training Diffusion Models on Tabular Data with Missing Values [29.894691645801597]
この研究は、欠落した値を持つデータから学習するための統一的で原則化された拡散ベースのフレームワークを示す。まず、広く採用されている「インプット・ザ・ジェネレーション」パイプラインが、バイアスのある学習目標に繋がる可能性があることを観察する。提案手法は,データ分布のスコアの学習に一貫性があることを証明し,提案手法は特定の場合において負の確率の上限として機能する。
論文参考訳（メタデータ） (2023-07-02T03:49:47Z)
TabDDPM: Modelling Tabular Data with Diffusion Models [33.202222842342465]
TabDDPM -- どんなデータセットにも普遍的に適用でき、どんなタイプの機能でも扱える拡散モデルです。我々は,TabDDPMを広範囲のベンチマークで評価し,既存のGAN/VAE代替よりも優れていることを示す。
論文参考訳（メタデータ） (2022-09-30T12:26:14Z)
Generative Models as Distributions of Functions [72.2682083758999]
生成モデルは一般的に、画像のようなグリッドのようなデータに基づいて訓練される。本稿では,離散格子を放棄し,連続関数による個々のデータポイントのパラメータ化を行う。
論文参考訳（メタデータ） (2021-02-09T11:47:55Z)
Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。私たちのフレームワークは、サンプル間の関係をよく保存します。サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文参考訳（メタデータ） (2020-07-11T10:57:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。