論文の概要: CT-BERT: Learning Better Tabular Representations Through Cross-Table
Pre-training
- arxiv url: http://arxiv.org/abs/2307.04308v1
- Date: Mon, 10 Jul 2023 02:27:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 14:20:42.817234
- Title: CT-BERT: Learning Better Tabular Representations Through Cross-Table
Pre-training
- Title(参考訳): CT-BERT: クロステーブル・プレトレーニングによるより良いタブラリ表現の学習
- Authors: Chao Ye, Guoshan Lu, Haobo Wang, Liyao Li, Sai Wu, Gang Chen, Junbo
Zhao
- Abstract要約: 我々はCT-BERTと呼ばれるクロステーブル事前学習を可能にする新しいフレームワークを提案する。
CT-BERTは、教師付きスキームと自己監督型スキームの両方と完全に互換性がある。
15のデータセットの結果は、CT-BERTの最先端のパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 15.166256603069792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular data -- also known as structured data -- is one of the most common
data forms in existence, thanks to the stable development and scaled deployment
of database systems in the last few decades. At present however, despite the
blast brought by large pre-trained models in other domains such as ChatGPT or
SAM, how can we extract common knowledge across tables at a scale that may
eventually lead to generalizable representation for tabular data remains a full
blank. Indeed, there have been a few works around this topic. Most (if not all)
of them are limited in the scope of a single table or fixed form of a schema.
In this work, we first identify the crucial research challenges behind tabular
data pre-training, particularly towards the cross-table scenario. We position
the contribution of this work in two folds: (i)-we collect and curate nearly 2k
high-quality tabular datasets, each of which is guaranteed to possess clear
semantics, clean labels, and other necessary meta information. (ii)-we propose
a novel framework that allows cross-table pre-training dubbed as CT-BERT.
Noticeably, in light of pioneering the scaled cross-table training, CT-BERT is
fully compatible with both supervised and self-supervised schemes, where the
specific instantiation of CT-BERT is very much dependent on the downstream
tasks. We further propose and implement a contrastive-learning-based and masked
table modeling (MTM) objective into CT-BERT, that is inspired from computer
vision and natural language processing communities but sophistically tailored
to tables. The extensive empirical results on 15 datasets demonstrate CT-BERT's
state-of-the-art performance, where both its supervised and self-supervised
setups significantly outperform the prior approaches.
- Abstract(参考訳): タブラルデータ(構造化データとしても知られる)は、過去数十年間のデータベースシステムの安定した開発と大規模展開のおかげで、現存する最も一般的なデータフォームの1つである。
しかし、ChatGPTやSAMのような他の領域で事前訓練された大規模なモデルによってもたらされた爆発にもかかわらず、最終的に表データの一般化可能な表現に繋がるようなスケールで、どのようにしてテーブル間で共通知識を抽出できるかは、まだ完全に空白のままである。
実際、このトピックに関するいくつかの研究がある。
それらのほとんどは(すべてではないとしても)単一のテーブルのスコープやスキーマの固定形式に制限されている。
本稿では,まず,表データ事前学習の背後にある重要な研究課題,特にクロステーブルシナリオについて明らかにする。
私たちはこの作品の貢献を2つにまとめる。
i)2k近い高品質な表付きデータセットを収集し、キュレートし、それぞれが明確なセマンティクス、クリーンラベル、その他の必要なメタ情報を持っていることを保証します。
(II)CT-BERTと呼ばれるクロステーブル事前学習を可能にする新しいフレームワークを提案する。
特に、大規模クロステーブルトレーニングのパイオニアとして、CT-BERTの特定のインスタンス化は下流タスクに大きく依存する、教師付きおよび自己監督型のスキームと完全に互換性がある。
さらに,コンピュータビジョンや自然言語処理のコミュニティに触発されたCT-BERTに,比較学習に基づくマスク付きテーブルモデリング(MTM)の目的を提案する。
15のデータセットに対する広範な実験結果は、CT-BERTの最先端のパフォーマンスを示し、その教師付きと自己監督型のセットアップは、以前のアプローチよりも大幅に優れていた。
関連論文リスト
- TabDPT: Scaling Tabular Foundation Models [20.00390825519329]
実データによる性能向上と一般化の方法を示す。
本モデルでは,CC18(分類)およびCTR23(回帰)ベンチマークの最先端性能を実現する。
TabDPTはまた、モデルのサイズと利用可能なデータの量の両方が増加するにつれて、強力なスケーリングを示す。
論文 参考訳(メタデータ) (2024-10-23T18:00:00Z) - PORTAL: Scalable Tabular Foundation Models via Content-Specific Tokenization [7.036380633387952]
我々は、クリーニングや前処理を必要とせずに、様々なデータモダリティを処理するフレームワーク、 Portal(Pretraining One-Row-at-a-Time for All tabLes)を紹介します。
オンラインにコンパイルされたデータセットで効果的に事前トレーニングされ、複雑な分類と回帰タスクに関する最先端の手法に適合するように微調整される。
論文 参考訳(メタデータ) (2024-10-17T13:05:44Z) - Transformers with Stochastic Competition for Tabular Data Modelling [6.285325771390289]
本稿では,表型データに特化して設計された新しいディープラーニングモデルを提案する。
このモデルは、広く使用されており、公開されているさまざまなデータセットで検証されている。
これらの要素を組み込むことで、我々のモデルは高い性能が得られることを実証する。
論文 参考訳(メタデータ) (2024-07-18T07:48:48Z) - LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - UniTabE: A Universal Pretraining Protocol for Tabular Foundation Model
in Data Science [16.384705926693073]
本研究は,データサイエンスにおける表上での予測を容易にするために,事前学習方法論の能力を拡張することを目的とする。
テーブルを一様に処理するために設計されたUniTabEは、特定のテーブル構造によって課される制約を無視する。
プレトレーニングフェーズを実装するため,Kaggleプラットフォームから正確に収集した約13Bサンプルからなる拡張データセットをキュレートした。
論文 参考訳(メタデータ) (2023-07-18T13:28:31Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z) - Embeddings for Tabular Data: A Survey [8.010589283146222]
タブラルデータは、同じ列(属性)のセットを持つ行(サンプル)を含む
テーブルは、さまざまな産業や学界でデータを保存する自然な方法になりつつある。
新しい研究の行は、様々なデータベースタスクをサポートするために様々な学習技術を適用している。
論文 参考訳(メタデータ) (2023-02-23T04:37:49Z) - Transfer Learning with Deep Tabular Models [66.67017691983182]
上流データにより、グラフニューラルネットワークはGBDTモデルよりも決定的な優位性を示す。
そこで本研究では,表在化学習のための現実的な診断ベンチマークを提案する。
上流と下流の特徴セットが異なる場合の擬似特徴法を提案する。
論文 参考訳(メタデータ) (2022-06-30T14:24:32Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。