論文の概要: XTab: Cross-table Pretraining for Tabular Transformers
- arxiv url: http://arxiv.org/abs/2305.06090v1
- Date: Wed, 10 May 2023 12:17:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 13:22:00.921410
- Title: XTab: Cross-table Pretraining for Tabular Transformers
- Title(参考訳): xtab:表型トランスフォーマーのためのクロステーブルプリトレーニング
- Authors: Bingzhao Zhu, Xingjian Shi, Nick Erickson, Mu Li, George Karypis,
Mahsa Shoaran
- Abstract要約: XTabは、さまざまなドメインのデータセット上の表型トランスフォーマーのクロステーブル事前トレーニングのためのフレームワークである。
XTabは、複数の表型変換器の一般化性、学習速度、性能を一貫して向上させることを示す。
回帰、二分法、多クラス分類といった様々なタスクにおいて、最先端の表層深層学習モデルよりも優れた性能を実現する。
- 参考スコア(独自算出の注目度): 29.419276738753968
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of self-supervised learning in computer vision and natural
language processing has motivated pretraining methods on tabular data. However,
most existing tabular self-supervised learning models fail to leverage
information across multiple data tables and cannot generalize to new tables. In
this work, we introduce XTab, a framework for cross-table pretraining of
tabular transformers on datasets from various domains. We address the challenge
of inconsistent column types and quantities among tables by utilizing
independent featurizers and using federated learning to pretrain the shared
component. Tested on 84 tabular prediction tasks from the OpenML-AutoML
Benchmark (AMLB), we show that (1) XTab consistently boosts the
generalizability, learning speed, and performance of multiple tabular
transformers, (2) by pretraining FT-Transformer via XTab, we achieve superior
performance than other state-of-the-art tabular deep learning models on various
tasks such as regression, binary, and multiclass classification.
- Abstract(参考訳): コンピュータビジョンと自然言語処理における自己教師型学習の成功は、表データの事前学習手法を動機付けている。
しかし、既存のテーブル型自己教師付き学習モデルは、複数のデータテーブルにまたがる情報を活用することができず、新しいテーブルに一般化できない。
本稿では,各種ドメインのデータセット上で表型トランスフォーマーのクロステーブル事前トレーニングを行うフレームワークであるXTabを紹介する。
本稿では,テーブル間の一貫性のない列型と量に関する課題を,独立型フェクタと共用学習を用いて共有コンポーネントの事前学習を行うことで解決する。
OpenML-AutoML Benchmark (AMLB) の84の表型予測タスクを試験した結果,(1) XTab は複数の表型変換器の一般化性,学習速度,性能を一貫して向上させ,(2) XTab を介してFT-Transformer を事前訓練することにより,回帰,バイナリ,マルチクラス分類などのタスクにおける他の最先端の表型深層学習モデルよりも優れた性能を実現する。
関連論文リスト
- LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - Cross-Table Pretraining towards a Universal Function Space for Heterogeneous Tabular Data [35.61663559675556]
クロスデータセット事前トレーニングは、様々な分野で顕著な成功を収めている。
本研究では,多目的な下流表予測タスクのためのクロステーブル事前学習型トランスであるXTFormerを提案する。
我々の手法は、XTFormerを事前訓練して、全ての潜在的な機能ターゲットマッピングを含む「メタ関数」空間を確立することである。
論文 参考訳(メタデータ) (2024-06-01T03:24:31Z) - Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - Deep Learning with Tabular Data: A Self-supervised Approach [0.0]
本研究では,自己指導型学習手法を用いた。
目的は、分類的特徴と数値的特徴の最も効果的なTabTransformerモデル表現を見つけることである。
この研究は、TabTransformerモデルの様々なバリエーションを作成することによって、新しいアプローチを提示している。
論文 参考訳(メタデータ) (2024-01-26T23:12:41Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - UniTabE: A Universal Pretraining Protocol for Tabular Foundation Model
in Data Science [16.384705926693073]
本研究は,データサイエンスにおける表上での予測を容易にするために,事前学習方法論の能力を拡張することを目的とする。
テーブルを一様に処理するために設計されたUniTabEは、特定のテーブル構造によって課される制約を無視する。
プレトレーニングフェーズを実装するため,Kaggleプラットフォームから正確に収集した約13Bサンプルからなる拡張データセットをキュレートした。
論文 参考訳(メタデータ) (2023-07-18T13:28:31Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z) - TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2022-08-31T08:33:36Z) - TransTab: Learning Transferable Tabular Transformers Across Tables [42.859662256134584]
タブラルデータ(またはテーブル)は機械学習(ML)で最も広く使われているデータ形式である
異なる列の異なるテーブルを マージするには 重いデータクリーニングが必要です
TransTabは各サンプル(テーブル内の行)を一般化可能な埋め込みベクトルに変換する。
論文 参考訳(メタデータ) (2022-05-19T05:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。