論文の概要: Language Models are Realistic Tabular Data Generators
- arxiv url: http://arxiv.org/abs/2210.06280v2
- Date: Sat, 22 Apr 2023 10:03:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 23:37:54.710458
- Title: Language Models are Realistic Tabular Data Generators
- Title(参考訳): 言語モデルは現実的なタブラルデータジェネレータである
- Authors: Vadim Borisov, Kathrin Se{\ss}ler, Tobias Leemann, Martin Pawelczyk,
Gjergji Kasneci
- Abstract要約: 本稿では,GReaT (Generation of Realistic Tabular data) を提案する。
提案手法の有効性を,複数角度から得られたデータサンプルの有効性と品質を定量化する一連の実験で実証した。
- 参考スコア(独自算出の注目度): 15.851912974874116
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Tabular data is among the oldest and most ubiquitous forms of data. However,
the generation of synthetic samples with the original data's characteristics
remains a significant challenge for tabular data. While many generative models
from the computer vision domain, such as variational autoencoders or generative
adversarial networks, have been adapted for tabular data generation, less
research has been directed towards recent transformer-based large language
models (LLMs), which are also generative in nature. To this end, we propose
GReaT (Generation of Realistic Tabular data), which exploits an auto-regressive
generative LLM to sample synthetic and yet highly realistic tabular data.
Furthermore, GReaT can model tabular data distributions by conditioning on any
subset of features; the remaining features are sampled without additional
overhead. We demonstrate the effectiveness of the proposed approach in a series
of experiments that quantify the validity and quality of the produced data
samples from multiple angles. We find that GReaT maintains state-of-the-art
performance across numerous real-world and synthetic data sets with
heterogeneous feature types coming in various sizes.
- Abstract(参考訳): タブラルデータは、最も古く、最もユビキタスな形式のデータである。
しかし、原データの特徴を持つ合成サンプルの生成は、表データにとって重要な課題である。
コンピュータビジョン領域からの多くの生成モデル、例えば変分オートエンコーダや生成逆数ネットワークは、表型データ生成に適用されているが、近年のトランスフォーマーベースの大規模言語モデル(LLM)への研究はあまり行われていない。
そこで本研究では, 自動回帰生成 LLM を利用して, 合成かつ高現実的な表形式データをサンプリングする GReaT (Generation of Realistic Tabular data) を提案する。
さらに、greatは、任意の機能のサブセットを条件付けすることで、表形式のデータ分布をモデル化できる。
提案手法の有効性を,複数角度から得られたデータサンプルの有効性と品質を定量化する一連の実験で実証した。
GReaTは、さまざまなサイズの異種特徴型を持つ多数の実世界および合成データセットに対して、最先端の性能を維持している。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - CTSyn: A Foundational Model for Cross Tabular Data Generation [9.568990880984813]
Cross-Table Synthesizer (CTSyn) は、表データ生成に適した拡散ベースの基礎モデルである。
CTSynは、実用性と多様性において既存のテーブルシンセサイザーを著しく上回っている。
また、実際のデータで達成可能なものを超えて、下流機械学習のパフォーマンスを独自に向上させる。
論文 参考訳(メタデータ) (2024-06-07T04:04:21Z) - Differentially Private Tabular Data Synthesis using Large Language Models [6.6376578496141585]
本稿ではDP-LLMTGenについて紹介する。
DP-LLMTGenは、2段階の微調整手順を用いて、センシティブなデータセットをモデル化する。
微調整LDMをサンプリングすることで合成データを生成する。
論文 参考訳(メタデータ) (2024-06-03T15:43:57Z) - Generative Modeling for Tabular Data via Penalized Optimal Transport
Network [2.0319002824093015]
Wasserstein generative adversarial network (WGAN) は、生成モデルにおいて顕著な改善である。
本稿では,新しい,頑健で解釈可能な辺縁補償型Wasserstein(MPW)損失に基づく生成型ディープニューラルネットワークPOTNetを提案する。
論文 参考訳(メタデータ) (2024-02-16T05:27:05Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - CasTGAN: Cascaded Generative Adversarial Network for Realistic Tabular
Data Synthesis [0.4999814847776097]
近年,GAN(Generative Adversarial Network)が注目されている。
合成データの妥当性と基礎となるプライバシーに関する懸念は、十分に対処されていない主要な課題を表している。
論文 参考訳(メタデータ) (2023-07-01T16:52:18Z) - Large Language Model as Attributed Training Data Generator: A Tale of
Diversity and Bias [92.41919689753051]
大規模言語モデル(LLM)は、最近、様々な自然言語処理(NLP)タスクのためのトレーニングデータジェネレータとして活用されている。
本稿では,多様な属性を持つプロンプトを用いたトレーニングデータ生成について検討する。
属性付きプロンプトは、結果のモデルの性能の観点から、単純なクラス条件プロンプトより優れていることを示す。
論文 参考訳(メタデータ) (2023-06-28T03:31:31Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Partially Conditioned Generative Adversarial Networks [75.08725392017698]
Generative Adversarial Networks (GAN)は、実世界のトレーニングデータセットの基盤となる確率分布を暗黙的にモデル化することで、人工データセットを合成する。
条件付きGANとその変種の導入により、これらの手法はデータセット内の各サンプルで利用可能な補助情報に基づいて条件付きサンプルを生成するように拡張された。
本研究では,標準条件付きGANがそのようなタスクに適さないことを論じ,新たなAdversarial Networkアーキテクチャとトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-07-06T15:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。