論文の概要: UniTabE: Pretraining a Unified Tabular Encoder for Heterogeneous Tabular
Data
- arxiv url: http://arxiv.org/abs/2307.09249v1
- Date: Tue, 18 Jul 2023 13:28:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 14:33:42.390857
- Title: UniTabE: Pretraining a Unified Tabular Encoder for Heterogeneous Tabular
Data
- Title(参考訳): UniTabE:不均質な語彙データのための統一語彙エンコーダの事前学習
- Authors: Yazheng Yang, Yuqi Wang, Guang Liu, Ledell Wu, Qi Liu
- Abstract要約: テーブルを一様に処理するための先駆的手法であるUniTabEを導入する。
プレトレーニングフェーズを実装するために,Kaggleプラットフォームから正確に収集した約13億のサンプルからなる拡張データセットをキュレートした。
実験結果は、UniTabEが複数のベンチマークデータセットのベースラインモデルに対して優れていることを示す。
- 参考スコア(独自算出の注目度): 16.27455717207678
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in Natural Language Processing (NLP) have witnessed the
groundbreaking impact of pretrained models, yielding impressive outcomes across
various tasks. This study seeks to extend the power of pretraining
methodologies to tabular data, a domain traditionally overlooked, yet
inherently challenging due to the plethora of table schemas intrinsic to
different tasks. The primary research questions underpinning this work revolve
around the adaptation to heterogeneous table structures, the establishment of a
universal pretraining protocol for tabular data, the generalizability and
transferability of learned knowledge across tasks, the adaptation to diverse
downstream applications, and the incorporation of incremental columns over
time. In response to these challenges, we introduce UniTabE, a pioneering
method designed to process tables in a uniform manner, devoid of constraints
imposed by specific table structures. UniTabE's core concept relies on
representing each basic table element with a module, termed TabUnit. This is
subsequently followed by a Transformer encoder to refine the representation.
Moreover, our model is designed to facilitate pretraining and finetuning
through the utilization of free-form prompts. In order to implement the
pretraining phase, we curated an expansive tabular dataset comprising
approximately 13 billion samples, meticulously gathered from the Kaggle
platform. Rigorous experimental testing and analyses were performed under a
myriad of scenarios to validate the effectiveness of our methodology. The
experimental results demonstrate UniTabE's superior performance against several
baseline models across a multitude of benchmark datasets. This, therefore,
underscores UniTabE's potential to significantly enhance the semantic
representation of tabular data, thereby marking a significant stride in the
field of tabular data analysis.
- Abstract(参考訳): 自然言語処理(NLP)の最近の進歩は、事前訓練されたモデルの破壊的な影響を目撃し、様々なタスクにおいて印象的な結果をもたらした。
本研究は、従来見過ごされてきたが、異なるタスクに固有のテーブルスキーマの多元性のため、本質的には困難である、表データに対する事前学習手法のパワーを拡大することを目的とする。
主な研究課題は、異質な表構造への適応、表データのための普遍的事前学習プロトコルの確立、タスク間の学習知識の一般化と転送可能性、多様な下流アプリケーションへの適応、時間とともにインクリメンタルコラムの組み込みに関するものである。
これらの課題に対応するために,我々は,特定のテーブル構造に課される制約を伴わずに,テーブルを統一的に処理するように設計された先駆的手法であるunitabeを紹介する。
UniTabEのコアコンセプトは、各基本テーブル要素をTabUnitと呼ばれるモジュールで表現することに依存している。
その後、表現を洗練させるTransformerエンコーダが続く。
さらに,自由形式のプロンプトの利用により,事前学習や微調整を容易にするように設計した。
プレトレーニングフェーズを実装するため,Kaggleプラットフォームから慎重に収集した約13億のサンプルからなる拡張表データセットをキュレートした。
本手法の有効性を検証するために,数多くのシナリオで厳密な実験と分析を行った。
実験結果は、UniTabEが複数のベンチマークデータセットのベースラインモデルに対して優れていることを示す。
これにより、UniTabEが表型データのセマンティック表現を大幅に強化する可能性を強調し、表型データ解析の分野において重要な一歩を踏み出した。
関連論文リスト
- TabM: Advancing Tabular Deep Learning with Parameter-Efficient Ensembling [28.37672139176765]
TabM -- BatchEnemblesのバリエーション(既存のテクニック)に基づいたシンプルなモデルです。
特に,TabMは表型DLモデルの中で最高の性能を示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:41Z) - LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Towards Cross-Table Masked Pretraining for Web Data Mining [22.952238405240188]
本稿では,CM2と呼ばれる,革新的で汎用的で効率的なクロステーブル事前学習フレームワークを提案する。
実験では,CM2の最先端性能を実証し,クロステーブルプレトレーニングが様々なダウンストリームタスクを向上させることを実証した。
論文 参考訳(メタデータ) (2023-07-10T02:27:38Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z) - XTab: Cross-table Pretraining for Tabular Transformers [29.419276738753968]
XTabは、さまざまなドメインのデータセット上の表型トランスフォーマーのクロステーブル事前トレーニングのためのフレームワークである。
XTabは、複数の表型変換器の一般化性、学習速度、性能を一貫して向上させることを示す。
回帰、二分法、多クラス分類といった様々なタスクにおいて、最先端の表層深層学習モデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-05-10T12:17:52Z) - STUNT: Few-shot Tabular Learning with Self-generated Tasks from
Unlabeled Tables [64.0903766169603]
我々は,Unlabeled Tables (STUNT) からの自己生成タスクを作成した,数発のセミ教師付き学習のためのフレームワークを提案する。
私たちのキーとなるアイデアは、ランダムに選択された列をターゲットラベルとして扱うことで、多様なショットタスクを自己生成することです。
次に、メタラーニング手法を用いて、構築されたタスクで一般化可能な知識を学習する。
論文 参考訳(メタデータ) (2023-03-02T02:37:54Z) - SubTab: Subsetting Features of Tabular Data for Self-Supervised
Representation Learning [5.5616364225463055]
私たちはTabular Data(SubTab)のサブセット機能である新しいフレームワークを紹介します。
本稿では,タブラルデータ(SubTab)のサブセット機能である新しいフレームワークを提案する。
我々は、自動エンコーダ設定で、その機能の一部分からデータを再構成することで、その基盤となる表現をよりよく捉えることができると論じている。
論文 参考訳(メタデータ) (2021-10-08T20:11:09Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。