論文の概要: UniTabE: A Universal Pretraining Protocol for Tabular Foundation Model
in Data Science
- arxiv url: http://arxiv.org/abs/2307.09249v2
- Date: Wed, 13 Mar 2024 08:20:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 18:57:17.898181
- Title: UniTabE: A Universal Pretraining Protocol for Tabular Foundation Model
in Data Science
- Title(参考訳): UniTabE: タブラルファウンデーションモデルのためのユニバーサルプレトレーニングプロトコル
データサイエンス
- Authors: Yazheng Yang, Yuqi Wang, Guang Liu, Ledell Wu, Qi Liu
- Abstract要約: 本研究は,データサイエンスにおける表上での予測を容易にするために,事前学習方法論の能力を拡張することを目的とする。
テーブルを一様に処理するために設計されたUniTabEは、特定のテーブル構造によって課される制約を無視する。
プレトレーニングフェーズを実装するため,Kaggleプラットフォームから正確に収集した約13Bサンプルからなる拡張データセットをキュレートした。
- 参考スコア(独自算出の注目度): 16.384705926693073
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in NLP have witnessed the groundbreaking impact of
pretrained models, yielding impressive outcomes across various tasks. This
study seeks to extend the power of pretraining methodologies to facilitating
the prediction over tables in data science, a domain traditionally overlooked,
yet inherently challenging due to the plethora of table schemas intrinsic to
different tasks. The primary research questions underpinning this work revolve
around the establishment of a universal pretraining protocol for tables with
varied structures, the generalizability and transferability of learned
knowledge across tasks, the adaptation to diverse downstream applications, and
the incorporation of incremental columns over time. In response to these
challenges, we introduce UniTabE, a straightforward yet effective method
designed to process tables in a uniform manner, devoid of constraints imposed
by specific table structures. UniTabE's core concept relies on representing
each basic table element with a module, termed TabUnit. This is subsequently
followed by a Transformer encoder to refine the representation. Moreover, our
model is designed to facilitate pretraining and finetuning through the
utilization of free-form prompts. In order to implement the pretraining phase,
we curated an expansive tabular dataset comprising approximately 13B samples,
meticulously gathered from the Kaggle platform. This research primarily centers
on classification and regression tasks involving tabular data, and conducts
rigorous experimental testing and analyses to validate the effectiveness of our
methodology. The experimental results demonstrate UniTabE's superior
performance against several baselines across massive benchmarks. This,
therefore, underscores UniTabE's potential to significantly enhance the
semantic representation of tabular data, thereby marking a significant stride
for tabular data analysis.
- Abstract(参考訳): NLPの最近の進歩は、事前訓練されたモデルの画期的な影響を目撃し、様々なタスクにおいて印象的な結果をもたらした。
本研究は,データサイエンスにおけるテーブル上の予測を容易にするための事前学習手法のパワーを,従来見過ごされてきたが,異なるタスクに固有のテーブルスキーマの多さのため,本質的には困難である領域に拡張することを目的とする。
この研究の根底にある主な課題は、様々な構造を持つテーブルのための普遍的な事前訓練プロトコルの確立、タスク間での学習知識の一般化と伝達可能性、下流の多様なアプリケーションへの適応、時間の経過とともに増分列を組み込むことである。
これらの課題に対応するために、我々は、テーブル構造に課される制約を無くして、テーブルを一様に処理するように設計された単純で効果的なUniTabEを導入する。
UniTabEのコアコンセプトは、各基本テーブル要素をTabUnitと呼ばれるモジュールで表現することに依存している。
その後、表現を洗練させるTransformerエンコーダが続く。
さらに,本モデルは,フリーフォームプロンプトを利用した事前学習と微調整を容易にするように設計されている。
プレトレーニングフェーズを実装するため,Kaggleプラットフォームから慎重に収集した約13Bサンプルからなる表層データセットをキュレートした。
本研究は,表型データを含む分類・回帰タスクを中心に,厳密な実験試験と分析を行い,本手法の有効性を検証した。
実験の結果、UniTabEは大規模なベンチマークでいくつかのベースラインに対して優れた性能を示した。
これにより、UniTabEが表型データのセマンティック表現を大幅に強化する可能性を強調し、表型データ解析において重要な一歩を踏み出した。
関連論文リスト
- TabM: Advancing Tabular Deep Learning with Parameter-Efficient Ensembling [28.37672139176765]
TabM -- BatchEnemblesのバリエーション(既存のテクニック)に基づいたシンプルなモデルです。
特に,TabMは表型DLモデルの中で最高の性能を示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:41Z) - LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Towards Cross-Table Masked Pretraining for Web Data Mining [22.952238405240188]
本稿では,CM2と呼ばれる,革新的で汎用的で効率的なクロステーブル事前学習フレームワークを提案する。
実験では,CM2の最先端性能を実証し,クロステーブルプレトレーニングが様々なダウンストリームタスクを向上させることを実証した。
論文 参考訳(メタデータ) (2023-07-10T02:27:38Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z) - XTab: Cross-table Pretraining for Tabular Transformers [29.419276738753968]
XTabは、さまざまなドメインのデータセット上の表型トランスフォーマーのクロステーブル事前トレーニングのためのフレームワークである。
XTabは、複数の表型変換器の一般化性、学習速度、性能を一貫して向上させることを示す。
回帰、二分法、多クラス分類といった様々なタスクにおいて、最先端の表層深層学習モデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-05-10T12:17:52Z) - STUNT: Few-shot Tabular Learning with Self-generated Tasks from
Unlabeled Tables [64.0903766169603]
我々は,Unlabeled Tables (STUNT) からの自己生成タスクを作成した,数発のセミ教師付き学習のためのフレームワークを提案する。
私たちのキーとなるアイデアは、ランダムに選択された列をターゲットラベルとして扱うことで、多様なショットタスクを自己生成することです。
次に、メタラーニング手法を用いて、構築されたタスクで一般化可能な知識を学習する。
論文 参考訳(メタデータ) (2023-03-02T02:37:54Z) - SubTab: Subsetting Features of Tabular Data for Self-Supervised
Representation Learning [5.5616364225463055]
私たちはTabular Data(SubTab)のサブセット機能である新しいフレームワークを紹介します。
本稿では,タブラルデータ(SubTab)のサブセット機能である新しいフレームワークを提案する。
我々は、自動エンコーダ設定で、その機能の一部分からデータを再構成することで、その基盤となる表現をよりよく捉えることができると論じている。
論文 参考訳(メタデータ) (2021-10-08T20:11:09Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。