論文の概要: REaLTabFormer: Generating Realistic Relational and Tabular Data using
Transformers
- arxiv url: http://arxiv.org/abs/2302.02041v1
- Date: Sat, 4 Feb 2023 00:32:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 20:31:51.328053
- Title: REaLTabFormer: Generating Realistic Relational and Tabular Data using
Transformers
- Title(参考訳): REaLTabFormer: トランスフォーマーを用いたリアルリレーショナルデータとタブラルデータの生成
- Authors: Aivin V. Solatorio and Olivier Dupriez
- Abstract要約: 本稿では,合成データ生成モデルであるREaLTabFormer(Realistic and Tabular Transformer)を紹介する。
まず、自己回帰GPT-2モデルを用いて親テーブルを生成し、その後、シーケンス・ツー・シーケンスモデルを用いて親テーブル上で条件付けられた関係データセットを生成する。
実世界のデータセットを用いた実験では、REaLTabFormerはモデルベースラインよりもリレーショナル構造をよりよくキャプチャする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Tabular data is a common form of organizing data. Multiple models are
available to generate synthetic tabular datasets where observations are
independent, but few have the ability to produce relational datasets. Modeling
relational data is challenging as it requires modeling both a "parent" table
and its relationships across tables. We introduce REaLTabFormer (Realistic
Relational and Tabular Transformer), a tabular and relational synthetic data
generation model. It first creates a parent table using an autoregressive GPT-2
model, then generates the relational dataset conditioned on the parent table
using a sequence-to-sequence (Seq2Seq) model. We implement target masking to
prevent data copying and propose the $Q_{\delta}$ statistic and statistical
bootstrapping to detect overfitting. Experiments using real-world datasets show
that REaLTabFormer captures the relational structure better than a baseline
model. REaLTabFormer also achieves state-of-the-art results on prediction
tasks, "out-of-the-box", for large non-relational datasets without needing
fine-tuning.
- Abstract(参考訳): タブラルデータ(tabular data)は、データ編成の一般的な形式である。
複数のモデルは、観察が独立した合成表型データセットを生成することができるが、リレーショナルデータセットを生成する能力を持つものは少ない。
テーブルとテーブル間の関係の両方をモデル化する必要があるため、関係データのモデリングは難しい。
realtabformer (realistic relational and tabular transformer), 表型および関係型データ生成モデルであるrealtabformer (realistic relational and tabular transformer) を導入する。
まず、自己回帰型gpt-2モデルを使用して親テーブルを作成し、次にsequence-to-sequence(seq2seq)モデルを使用して親テーブル上のリレーショナルデータセットを生成する。
我々は,データのコピーを防止するためにターゲットマスキングを実装し,オーバーフィッティングを検出するために$q_{\delta}$ statistic and statistical bootstrappingを提案する。
実世界のデータセットを用いた実験では、REaLTabFormerはベースラインモデルよりもリレーショナル構造をよりよくキャプチャする。
REaLTabFormerは、微調整を必要とせずに大規模な非リレーショナルデータセットに対して、予測タスク"out-of-box"の最先端結果も達成している。
関連論文リスト
- Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Retrieval-Based Transformer for Table Augmentation [14.460363647772745]
我々は、自動データラングリングに対する新しいアプローチを導入する。
本研究の目的は,行数や列数,データ計算などのテーブル拡張タスクに対処することである。
我々のモデルは、教師付き統計手法と最先端のトランスフォーマーベースモデルの両方より一貫して、実質的に優れています。
論文 参考訳(メタデータ) (2023-06-20T18:51:21Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z) - Row Conditional-TGAN for generating synthetic relational databases [0.0]
本稿ではRow-Tabular Generative Adversarial Network (RC-TGAN)を提案する。
RC-TGANは、子テーブルのGANの設計に親行の条件データを組み込むことで、テーブル間の関係情報をモデル化する。
論文 参考訳(メタデータ) (2022-11-14T18:14:18Z) - MAVEN-ERE: A Unified Large-scale Dataset for Event Coreference,
Temporal, Causal, and Subevent Relation Extraction [78.61546292830081]
アノテーションを改良した大規模EREデータセットMAVEN-EREを構築した。
103,193個のイベント・コア・チェイン、1,216,217個の時間関係、57,992個の因果関係、15,841個の部分関係を含む。
実験の結果,MAVEN-ERE上でのEREは極めて困難であり,共同学習との相互関係を考慮すれば性能が向上することが示された。
論文 参考訳(メタデータ) (2022-11-14T13:34:49Z) - OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - Generative Modeling of Complex Data [8.201100713224003]
本稿では,より複雑なデータ構造を複合型とネスト型で合成する汎用フレームワークを提案する。
標準ベンチマークデータセットの結果は、このような実装が現在の最先端モデルよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2022-02-04T14:17:26Z) - Relation Extraction from Tables using Artificially Generated Metadata [4.8627638794427765]
本稿では,このメタデータのいくつかを人工的に生成する手法を提案する。
これにより、F1スコアの9%-45%が、絶対的に2つのデータセットで改善される。
論文 参考訳(メタデータ) (2021-08-24T14:06:17Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。