Fugu-MT 論文翻訳(概要): REaLTabFormer: Generating Realistic Relational and Tabular Data using Transformers

論文の概要: REaLTabFormer: Generating Realistic Relational and Tabular Data using Transformers

arxiv url: http://arxiv.org/abs/2302.02041v1
Date: Sat, 4 Feb 2023 00:32:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-07 20:31:51.328053
Title: REaLTabFormer: Generating Realistic Relational and Tabular Data using Transformers
Title（参考訳）: REaLTabFormer: トランスフォーマーを用いたリアルリレーショナルデータとタブラルデータの生成
Authors: Aivin V. Solatorio and Olivier Dupriez
Abstract要約: 本稿では,合成データ生成モデルであるREaLTabFormer(Realistic and Tabular Transformer)を紹介する。まず、自己回帰GPT-2モデルを用いて親テーブルを生成し、その後、シーケンス・ツー・シーケンスモデルを用いて親テーブル上で条件付けられた関係データセットを生成する。実世界のデータセットを用いた実験では、REaLTabFormerはモデルベースラインよりもリレーショナル構造をよりよくキャプチャする。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Tabular data is a common form of organizing data. Multiple models are available to generate synthetic tabular datasets where observations are independent, but few have the ability to produce relational datasets. Modeling relational data is challenging as it requires modeling both a "parent" table and its relationships across tables. We introduce REaLTabFormer (Realistic Relational and Tabular Transformer), a tabular and relational synthetic data generation model. It first creates a parent table using an autoregressive GPT-2 model, then generates the relational dataset conditioned on the parent table using a sequence-to-sequence (Seq2Seq) model. We implement target masking to prevent data copying and propose the $Q_{\delta}$ statistic and statistical bootstrapping to detect overfitting. Experiments using real-world datasets show that REaLTabFormer captures the relational structure better than a baseline model. REaLTabFormer also achieves state-of-the-art results on prediction tasks, "out-of-the-box", for large non-relational datasets without needing fine-tuning.
Abstract（参考訳）: タブラルデータ(tabular data)は、データ編成の一般的な形式である。複数のモデルは、観察が独立した合成表型データセットを生成することができるが、リレーショナルデータセットを生成する能力を持つものは少ない。テーブルとテーブル間の関係の両方をモデル化する必要があるため、関係データのモデリングは難しい。 realtabformer (realistic relational and tabular transformer), 表型および関係型データ生成モデルであるrealtabformer (realistic relational and tabular transformer) を導入する。まず、自己回帰型gpt-2モデルを使用して親テーブルを作成し、次にsequence-to-sequence(seq2seq)モデルを使用して親テーブル上のリレーショナルデータセットを生成する。我々は,データのコピーを防止するためにターゲットマスキングを実装し,オーバーフィッティングを検出するために$q_{\delta}$ statistic and statistical bootstrappingを提案する。実世界のデータセットを用いた実験では、REaLTabFormerはベースラインモデルよりもリレーショナル構造をよりよくキャプチャする。 REaLTabFormerは、微調整を必要とせずに大規模な非リレーショナルデータセットに対して、予測タスク"out-of-box"の最先端結果も達成している。

関連論文リスト

Generating Synthetic Relational Tabular Data via Structural Causal Models [0.0]
本研究では,テーブル間の因果関係を含むリアルな合成関係データを生成する新しいフレームワークを開発する。実験により,本フレームワークは実世界のシナリオを模倣した複雑なテーブル間依存関係を持つ関係データセットを構築することができることを確認した。
論文参考訳（メタデータ） (2025-07-04T12:27:23Z)
RelDiff: Relational Data Generative Modeling with Graph-Based Diffusion Models [83.6013616017646]
RelDiffは、外部キーグラフ構造を明示的にモデル化することによって完全な関係データベースを合成する新しい拡散生成モデルである。 RelDiffは、現実的で一貫性のある合成リレーショナルデータベースの作成において、従来手法よりも一貫して優れている。
論文参考訳（メタデータ） (2025-05-31T21:01:02Z)
TabRep: Training Tabular Diffusion Models with a Simple and Effective Continuous Representation [16.907006955584343]
拡散モデルはデータ生成の主要な生成モデルである。統一された連続表現で訓練されたトレーニングアーキテクチャであるTabRepを紹介する。この結果から,TabRepは幅広い評価スイートにおいて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-04-07T07:44:27Z)
LLM-TabFlow: Synthetic Tabular Data Generation with Inter-column Logical Relationship Preservation [49.898152180805454]
本研究は,合成表型データ生成におけるカラム間関係の保存について,初めて明示的に検討したものである。 LLM-TabFlowは複雑なカラム間関係と圧縮データをキャプチャする新しい手法であり、Score-based Diffusion を用いて遅延空間における圧縮データの分布をモデル化する。 LLM-TabFlowは、カラム間の関係を完全に保ちながら、データの忠実性、ユーティリティ、プライバシの最良のバランスを保ちながら、すべてのベースラインを上回ります。
論文参考訳（メタデータ） (2025-03-04T00:47:52Z)
Diffusion-nested Auto-Regressive Synthesis of Heterogeneous Tabular Data [56.48119008663155]
本稿では,これらの問題に対処する拡散型自己回帰モデル(TabDAR)を提案する。異なる特性を持つ10のデータセットに対して広範な実験を行い、提案したTabDARは3つの異なる側面にわたる8つの指標に対して、従来の最先端手法を18%から45%上回っている。
論文参考訳（メタデータ） (2024-10-28T20:49:26Z)
TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。 TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文参考訳（メタデータ） (2024-10-27T22:58:47Z)
TabSketchFM: Sketch-based Tabular Representation Learning for Data Discovery over Data Lakes [25.169832192255956]
データレイク上のデータ発見のためのニューラルネットワークタブモデルであるTabFMを提案する。我々は、結合可能、結合可能、およびサブセットテーブルペアを特定するための事前訓練されたモデルを微調整する。その結果,最先端技術と比較して,検索におけるF1スコアの大幅な改善が示された。
論文参考訳（メタデータ） (2024-06-28T17:28:53Z)
LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。 LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。 LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文参考訳（メタデータ） (2024-06-25T16:03:50Z)
Training-Free Generalization on Heterogeneous Tabular Data via Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文参考訳（メタデータ） (2023-10-31T18:03:54Z)
Retrieval-Based Transformer for Table Augmentation [14.460363647772745]
我々は、自動データラングリングに対する新しいアプローチを導入する。本研究の目的は,行数や列数,データ計算などのテーブル拡張タスクに対処することである。我々のモデルは、教師付き統計手法と最先端のトランスフォーマーベースモデルの両方より一貫して、実質的に優れています。
論文参考訳（メタデータ） (2023-06-20T18:51:21Z)
Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。 TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。 LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文参考訳（メタデータ） (2023-05-16T06:37:38Z)
Row Conditional-TGAN for generating synthetic relational databases [0.0]
本稿ではRow-Tabular Generative Adversarial Network (RC-TGAN)を提案する。 RC-TGANは、子テーブルのGANの設計に親行の条件データを組み込むことで、テーブル間の関係情報をモデル化する。
論文参考訳（メタデータ） (2022-11-14T18:14:18Z)
Generative Modeling of Complex Data [8.201100713224003]
本稿では,より複雑なデータ構造を複合型とネスト型で合成する汎用フレームワークを提案する。標準ベンチマークデータセットの結果は、このような実装が現在の最先端モデルよりも一貫して優れていることを示している。
論文参考訳（メタデータ） (2022-02-04T14:17:26Z)
GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文参考訳（メタデータ） (2020-09-29T08:17:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。