論文の概要: Generative Table Pre-training Empowers Models for Tabular Prediction
- arxiv url: http://arxiv.org/abs/2305.09696v1
- Date: Tue, 16 May 2023 06:37:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 19:00:12.766813
- Title: Generative Table Pre-training Empowers Models for Tabular Prediction
- Title(参考訳): 語彙予測のためのテーブル事前学習エンパワーモデル
- Authors: Tianping Zhang, Shaowen Wang, Shuicheng Yan, Jian Li, Qian Liu
- Abstract要約: 本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
- 参考スコア(独自算出の注目度): 71.76829961276032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the topic of table pre-training has attracted considerable research
interest. However, how to employ table pre-training to boost the performance of
tabular prediction remains an open challenge. In this paper, we propose TapTap,
the first attempt that leverages table pre-training to empower models for
tabular prediction. After pre-training on a large corpus of real-world tabular
data, TapTap can generate high-quality synthetic tables to support various
applications on tabular data, including privacy protection, low resource
regime, missing value imputation, and imbalanced classification. Extensive
experiments on 12 datasets demonstrate that TapTap outperforms a total of 16
baselines in different scenarios. Meanwhile, it can be easily combined with
various backbone models, including LightGBM, Multilayer Perceptron (MLP) and
Transformer. Moreover, with the aid of table pre-training, models trained using
synthetic data generated by TapTap can even compete with models using the
original dataset on half of the experimental datasets, marking a milestone in
the development of synthetic tabular data generation. The codes are available
at https://github.com/ZhangTP1996/TapTap.
- Abstract(参考訳): 近年,テーブル事前学習の話題が研究の関心を集めている。
しかし、表予測の性能を高めるためにテーブル事前学習を利用する方法は未解決の課題である。
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
現実世界の表データの大規模なコーパスを事前トレーニングした後、TapTapは高品質な合成テーブルを生成し、プライバシー保護、リソースの低さ、値の計算不足、不均衡な分類など、表データのさまざまなアプリケーションをサポートする。
12のデータセットに対する大規模な実験は、TapTapがさまざまなシナリオで合計16のベースラインを上回っていることを示している。
一方、LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
さらに、テーブル事前トレーニングの助けを借りて、TapTapが生成した合成データを使ってトレーニングされたモデルは、実験データセットの半分のオリジナルのデータセットを使用したモデルと競合し、合成表データ生成のマイルストーンとなる。
コードはhttps://github.com/ZhangTP 1996/TapTapで入手できる。
関連論文リスト
- TabDPT: Scaling Tabular Foundation Models [20.00390825519329]
実データによる性能向上と一般化の方法を示す。
本モデルでは,CC18(分類)およびCTR23(回帰)ベンチマークの最先端性能を実現する。
TabDPTはまた、モデルのサイズと利用可能なデータの量の両方が増加するにつれて、強力なスケーリングを示す。
論文 参考訳(メタデータ) (2024-10-23T18:00:00Z) - LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - TabuLa: Harnessing Language Models for Tabular Data Synthesis [5.102332247789348]
言語モデル構造に基づく新しいタイプのデータシンセサイザーであるTabulaを開発した。
本研究では,現在LLMをベースとした最先端アルゴリズムと比較して,Tabulaのトレーニング時間は平均46.2%削減されていることを示す。
また、合成データの質を保ちながら、トレーニング時間を著しく短縮するトークンシーケンス圧縮戦略を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:50:56Z) - UniTabE: A Universal Pretraining Protocol for Tabular Foundation Model
in Data Science [16.384705926693073]
本研究は,データサイエンスにおける表上での予測を容易にするために,事前学習方法論の能力を拡張することを目的とする。
テーブルを一様に処理するために設計されたUniTabEは、特定のテーブル構造によって課される制約を無視する。
プレトレーニングフェーズを実装するため,Kaggleプラットフォームから正確に収集した約13Bサンプルからなる拡張データセットをキュレートした。
論文 参考訳(メタデータ) (2023-07-18T13:28:31Z) - OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。