論文の概要: REaLTabFormer: Generating Realistic Relational and Tabular Data using
Transformers
- arxiv url: http://arxiv.org/abs/2302.02041v1
- Date: Sat, 4 Feb 2023 00:32:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 20:31:51.328053
- Title: REaLTabFormer: Generating Realistic Relational and Tabular Data using
Transformers
- Title(参考訳): REaLTabFormer: トランスフォーマーを用いたリアルリレーショナルデータとタブラルデータの生成
- Authors: Aivin V. Solatorio and Olivier Dupriez
- Abstract要約: 本稿では,合成データ生成モデルであるREaLTabFormer(Realistic and Tabular Transformer)を紹介する。
まず、自己回帰GPT-2モデルを用いて親テーブルを生成し、その後、シーケンス・ツー・シーケンスモデルを用いて親テーブル上で条件付けられた関係データセットを生成する。
実世界のデータセットを用いた実験では、REaLTabFormerはモデルベースラインよりもリレーショナル構造をよりよくキャプチャする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Tabular data is a common form of organizing data. Multiple models are
available to generate synthetic tabular datasets where observations are
independent, but few have the ability to produce relational datasets. Modeling
relational data is challenging as it requires modeling both a "parent" table
and its relationships across tables. We introduce REaLTabFormer (Realistic
Relational and Tabular Transformer), a tabular and relational synthetic data
generation model. It first creates a parent table using an autoregressive GPT-2
model, then generates the relational dataset conditioned on the parent table
using a sequence-to-sequence (Seq2Seq) model. We implement target masking to
prevent data copying and propose the $Q_{\delta}$ statistic and statistical
bootstrapping to detect overfitting. Experiments using real-world datasets show
that REaLTabFormer captures the relational structure better than a baseline
model. REaLTabFormer also achieves state-of-the-art results on prediction
tasks, "out-of-the-box", for large non-relational datasets without needing
fine-tuning.
- Abstract(参考訳): タブラルデータ(tabular data)は、データ編成の一般的な形式である。
複数のモデルは、観察が独立した合成表型データセットを生成することができるが、リレーショナルデータセットを生成する能力を持つものは少ない。
テーブルとテーブル間の関係の両方をモデル化する必要があるため、関係データのモデリングは難しい。
realtabformer (realistic relational and tabular transformer), 表型および関係型データ生成モデルであるrealtabformer (realistic relational and tabular transformer) を導入する。
まず、自己回帰型gpt-2モデルを使用して親テーブルを作成し、次にsequence-to-sequence(seq2seq)モデルを使用して親テーブル上のリレーショナルデータセットを生成する。
我々は,データのコピーを防止するためにターゲットマスキングを実装し,オーバーフィッティングを検出するために$q_{\delta}$ statistic and statistical bootstrappingを提案する。
実世界のデータセットを用いた実験では、REaLTabFormerはベースラインモデルよりもリレーショナル構造をよりよくキャプチャする。
REaLTabFormerは、微調整を必要とせずに大規模な非リレーショナルデータセットに対して、予測タスク"out-of-box"の最先端結果も達成している。
関連論文リスト
- Diffusion-nested Auto-Regressive Synthesis of Heterogeneous Tabular Data [56.48119008663155]
本稿では,これらの問題に対処する拡散型自己回帰モデル(TabDAR)を提案する。
異なる特性を持つ10のデータセットに対して広範な実験を行い、提案したTabDARは3つの異なる側面にわたる8つの指標に対して、従来の最先端手法を18%から45%上回っている。
論文 参考訳(メタデータ) (2024-10-28T20:49:26Z) - TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - TabSketchFM: Sketch-based Tabular Representation Learning for Data Discovery over Data Lakes [25.169832192255956]
データレイク上のデータ発見のためのニューラルネットワークタブモデルであるTabFMを提案する。
我々は、結合可能、結合可能、およびサブセットテーブルペアを特定するための事前訓練されたモデルを微調整する。
その結果,最先端技術と比較して,検索におけるF1スコアの大幅な改善が示された。
論文 参考訳(メタデータ) (2024-06-28T17:28:53Z) - LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - Rethinking Pre-Training in Tabular Data: A Neighborhood Embedding Perspective [71.45945607871715]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
中心となる考え方は、データインスタンスを共有機能空間に埋め込むことで、各インスタンスは、近隣の固定数とそのラベルまでの距離で表現される。
101データセットの大規模な実験は、微調整の有無にかかわらず、分類タスクと回帰タスクの両方においてTabPTMの有効性を確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Retrieval-Based Transformer for Table Augmentation [14.460363647772745]
我々は、自動データラングリングに対する新しいアプローチを導入する。
本研究の目的は,行数や列数,データ計算などのテーブル拡張タスクに対処することである。
我々のモデルは、教師付き統計手法と最先端のトランスフォーマーベースモデルの両方より一貫して、実質的に優れています。
論文 参考訳(メタデータ) (2023-06-20T18:51:21Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z) - Row Conditional-TGAN for generating synthetic relational databases [0.0]
本稿ではRow-Tabular Generative Adversarial Network (RC-TGAN)を提案する。
RC-TGANは、子テーブルのGANの設計に親行の条件データを組み込むことで、テーブル間の関係情報をモデル化する。
論文 参考訳(メタデータ) (2022-11-14T18:14:18Z) - Generative Modeling of Complex Data [8.201100713224003]
本稿では,より複雑なデータ構造を複合型とネスト型で合成する汎用フレームワークを提案する。
標準ベンチマークデータセットの結果は、このような実装が現在の最先端モデルよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2022-02-04T14:17:26Z) - Relation Extraction from Tables using Artificially Generated Metadata [4.8627638794427765]
本稿では,このメタデータのいくつかを人工的に生成する手法を提案する。
これにより、F1スコアの9%-45%が、絶対的に2つのデータセットで改善される。
論文 参考訳(メタデータ) (2021-08-24T14:06:17Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。