Fugu-MT 論文翻訳(概要): CTSyn: A Foundational Model for Cross Tabular Data Generation

論文の概要: CTSyn: A Foundational Model for Cross Tabular Data Generation

arxiv url: http://arxiv.org/abs/2406.04619v1
Date: Fri, 7 Jun 2024 04:04:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-10 15:39:08.276763
Title: CTSyn: A Foundational Model for Cross Tabular Data Generation
Title（参考訳）: CTSyn: クロスタブラルデータ生成の基礎モデル
Authors: Xiaofeng Lin, Chenheng Xu, Matthew Yang, Guang Cheng,
Abstract要約: Cross-Table Synthesizer (CTSyn) は、表データ生成に適した拡散ベースの基礎モデルである。 CTSynは、実用性と多様性において既存のテーブルシンセサイザーを著しく上回っている。また、実際のデータで達成可能なものを超えて、下流機械学習のパフォーマンスを独自に向上させる。
参考スコア（独自算出の注目度）: 9.568990880984813
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generative Foundation Models (GFMs) have produced synthetic data with remarkable quality in modalities such as images and text. However, applying GFMs to tabular data poses significant challenges due to the inherent heterogeneity of table features. Existing cross-table learning frameworks are hindered by the absence of both a generative model backbone and a decoding mechanism for heterogeneous feature values. To overcome these limitations, we introduce the Cross-Table Synthesizer (CTSyn), a diffusion-based foundational model tailored for tabular data generation. CTSyn introduces three major components: an aggregator that consolidates heterogeneous tables into a unified latent space; a conditional latent diffusion model for sampling from this space; and type-specific decoders that reconstruct values of varied data types from sampled latent vectors. Extensive testing on real-world datasets reveals that CTSyn not only significantly outperforms existing table synthesizers in utility and diversity, but also uniquely enhances performances of downstream machine learning beyond what is achievable with real data, thus establishing a new paradigm for synthetic data generation.
Abstract（参考訳）: Generative Foundation Models (GFMs) は画像やテキストなどのモダリティに優れた品質の合成データを生成する。しかし、表データにGFMを適用することは、表の特徴の固有の不均一性のために大きな課題となる。既存のクロステーブル学習フレームワークは、生成モデルバックボーンと、不均一な特徴値のデコードメカニズムが欠如しているため、障害となる。これらの制限を克服するために,表データ生成に適した拡散に基づく基礎モデルであるCTSynを導入する。 CTSynは、不均一なテーブルを統一潜在空間に集約するアグリゲータ、この空間からサンプリングする条件付き潜在拡散モデル、サンプリングされた潜在ベクトルから様々なデータ型の値を再構成するタイプ固有デコーダの3つの主要なコンポーネントを紹介している。実世界のデータセットに対する大規模なテストにより、CTSynは既存のテーブルシンセサイザーを実用性と多様性で著しく上回るだけでなく、下流機械学習のパフォーマンスを実際のデータで達成可能な範囲を超えて一意的に向上させ、合成データ生成の新しいパラダイムを確立していることが明らかになった。

関連論文リスト

PluRel: Synthetic Data unlocks Scaling Laws for Relational Foundation Models [51.42043158297229]
マルチタブラルリレーショナルデータベースをスクラッチから合成するフレームワークであるPluelを紹介する。ステップバイステップの方法では,(1)有向グラフのスキーマ,(2)二部グラフのテーブル間一次外部キー接続,(3)条件因果機構によるテーブル内の特徴分布をモデル化する。
論文参考訳（メタデータ） (2026-02-03T21:35:18Z)
Mitra: Mixed Synthetic Priors for Enhancing Tabular Foundation Models [85.64873567417396]
実世界のデータに対して,その多様性,特異性,および性能のために選択された合成前駆体の硬化した混合物をトレーニングしたTFMであるMitraを紹介する。 Mitraは、TabPFNv2やTabICLのような最先端のTFMを、分類と回帰のベンチマークで一貫して上回っている。
論文参考訳（メタデータ） (2025-10-24T07:15:06Z)
Scaling Transformer-Based Novel View Synthesis Models with Token Disentanglement and Synthetic Data [53.040873127309766]
本稿では,トランスアーキテクチャ内でのトークンのアンタングル化プロセスを提案し,特徴分離を向上し,より効果的な学習を実現する。提案手法は,データセット内およびデータセット間の評価において,既存のモデルよりも優れる。
論文参考訳（メタデータ） (2025-09-08T17:58:06Z)
RelDiff: Relational Data Generative Modeling with Graph-Based Diffusion Models [83.6013616017646]
RelDiffは、外部キーグラフ構造を明示的にモデル化することによって完全な関係データベースを合成する新しい拡散生成モデルである。 RelDiffは、現実的で一貫性のある合成リレーショナルデータベースの作成において、従来手法よりも一貫して優れている。
論文参考訳（メタデータ） (2025-05-31T21:01:02Z)
Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文参考訳（メタデータ） (2025-03-25T11:07:12Z)
LLM-TabFlow: Synthetic Tabular Data Generation with Inter-column Logical Relationship Preservation [49.898152180805454]
本研究は,合成表型データ生成におけるカラム間関係の保存について,初めて明示的に検討したものである。 LLM-TabFlowは複雑なカラム間関係と圧縮データをキャプチャする新しい手法であり、Score-based Diffusion を用いて遅延空間における圧縮データの分布をモデル化する。 LLM-TabFlowは、カラム間の関係を完全に保ちながら、データの忠実性、ユーティリティ、プライバシの最良のバランスを保ちながら、すべてのベースラインを上回ります。
論文参考訳（メタデータ） (2025-03-04T00:47:52Z)
TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。 TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文参考訳（メタデータ） (2024-10-27T22:58:47Z)
Diffusion Models for Tabular Data Imputation and Synthetic Data Generation [3.667364190843767]
拡散モデルは、複雑なデータ分布をキャプチャできる強力な生成モデルとして登場した。本稿では,3つの重要な拡張を導入した表データの拡散モデルを提案する。コンディショニングアテンション機構は、条件と合成データの関係をキャプチャするモデルの能力を改善するように設計されている。変換器層は条件(エンコーダ)や合成データ(デコーダ)内の相互作用をモデル化し、動的マスキングにより、欠落したデータ計算と合成データ生成タスクの両方を効率的に処理できる。
論文参考訳（メタデータ） (2024-07-02T15:27:06Z)
An improved tabular data generator with VAE-GMM integration [9.4491536689161]
本稿では,現在のアプローチの限界に対処する新しい変分オートエンコーダ(VAE)モデルを提案する。本手法は,TVAEモデルにインスパイアされたベイジアン・ガウス混合モデル(BGM)をVAEアーキテクチャに組み込む。我々は,2つの医療関連データセットを含む混合データ型を持つ実世界の3つのデータセットに対して,我々のモデルを徹底的に検証する。
論文参考訳（メタデータ） (2024-04-12T12:31:06Z)
Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。 DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文参考訳（メタデータ） (2024-03-11T14:07:53Z)
AutoDiff: combining Auto-encoder and Diffusion model for tabular data synthesizing [12.06889830487286]
拡散モデルは、現代の機械学習において、合成データ生成の主要なパラダイムとなっている。本稿では,合成表データを生成するために拡散モデルのパワーを利用する。生成した合成表は、実データに対する優れた統計的忠実度を示し、機械学習ユーティリティの下流タスクでよく機能する。
論文参考訳（メタデータ） (2023-10-24T03:15:19Z)
Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文参考訳（メタデータ） (2023-10-20T17:14:25Z)
CasTGAN: Cascaded Generative Adversarial Network for Realistic Tabular Data Synthesis [0.4999814847776097]
近年,GAN(Generative Adversarial Network)が注目されている。合成データの妥当性と基礎となるプライバシーに関する懸念は、十分に対処されていない主要な課題を表している。
論文参考訳（メタデータ） (2023-07-01T16:52:18Z)
DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文参考訳（メタデータ） (2023-01-23T15:18:54Z)
Language Models are Realistic Tabular Data Generators [15.851912974874116]
本稿では,GReaT (Generation of Realistic Tabular data) を提案する。提案手法の有効性を,複数角度から得られたデータサンプルの有効性と品質を定量化する一連の実験で実証した。
論文参考訳（メタデータ） (2022-10-12T15:03:28Z)
Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文参考訳（メタデータ） (2020-10-12T03:27:07Z)
Partially Conditioned Generative Adversarial Networks [75.08725392017698]
Generative Adversarial Networks (GAN)は、実世界のトレーニングデータセットの基盤となる確率分布を暗黙的にモデル化することで、人工データセットを合成する。条件付きGANとその変種の導入により、これらの手法はデータセット内の各サンプルで利用可能な補助情報に基づいて条件付きサンプルを生成するように拡張された。本研究では,標準条件付きGANがそのようなタスクに適さないことを論じ,新たなAdversarial Networkアーキテクチャとトレーニング戦略を提案する。
論文参考訳（メタデータ） (2020-07-06T15:59:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。