論文の概要: CT-BERT: Learning Better Tabular Representations Through Cross-Table
Pre-training
- arxiv url: http://arxiv.org/abs/2307.04308v1
- Date: Mon, 10 Jul 2023 02:27:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 14:20:42.817234
- Title: CT-BERT: Learning Better Tabular Representations Through Cross-Table
Pre-training
- Title(参考訳): CT-BERT: クロステーブル・プレトレーニングによるより良いタブラリ表現の学習
- Authors: Chao Ye, Guoshan Lu, Haobo Wang, Liyao Li, Sai Wu, Gang Chen, Junbo
Zhao
- Abstract要約: 我々はCT-BERTと呼ばれるクロステーブル事前学習を可能にする新しいフレームワークを提案する。
CT-BERTは、教師付きスキームと自己監督型スキームの両方と完全に互換性がある。
15のデータセットの結果は、CT-BERTの最先端のパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 15.166256603069792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular data -- also known as structured data -- is one of the most common
data forms in existence, thanks to the stable development and scaled deployment
of database systems in the last few decades. At present however, despite the
blast brought by large pre-trained models in other domains such as ChatGPT or
SAM, how can we extract common knowledge across tables at a scale that may
eventually lead to generalizable representation for tabular data remains a full
blank. Indeed, there have been a few works around this topic. Most (if not all)
of them are limited in the scope of a single table or fixed form of a schema.
In this work, we first identify the crucial research challenges behind tabular
data pre-training, particularly towards the cross-table scenario. We position
the contribution of this work in two folds: (i)-we collect and curate nearly 2k
high-quality tabular datasets, each of which is guaranteed to possess clear
semantics, clean labels, and other necessary meta information. (ii)-we propose
a novel framework that allows cross-table pre-training dubbed as CT-BERT.
Noticeably, in light of pioneering the scaled cross-table training, CT-BERT is
fully compatible with both supervised and self-supervised schemes, where the
specific instantiation of CT-BERT is very much dependent on the downstream
tasks. We further propose and implement a contrastive-learning-based and masked
table modeling (MTM) objective into CT-BERT, that is inspired from computer
vision and natural language processing communities but sophistically tailored
to tables. The extensive empirical results on 15 datasets demonstrate CT-BERT's
state-of-the-art performance, where both its supervised and self-supervised
setups significantly outperform the prior approaches.
- Abstract(参考訳): タブラルデータ(構造化データとしても知られる)は、過去数十年間のデータベースシステムの安定した開発と大規模展開のおかげで、現存する最も一般的なデータフォームの1つである。
しかし、ChatGPTやSAMのような他の領域で事前訓練された大規模なモデルによってもたらされた爆発にもかかわらず、最終的に表データの一般化可能な表現に繋がるようなスケールで、どのようにしてテーブル間で共通知識を抽出できるかは、まだ完全に空白のままである。
実際、このトピックに関するいくつかの研究がある。
それらのほとんどは(すべてではないとしても)単一のテーブルのスコープやスキーマの固定形式に制限されている。
本稿では,まず,表データ事前学習の背後にある重要な研究課題,特にクロステーブルシナリオについて明らかにする。
私たちはこの作品の貢献を2つにまとめる。
i)2k近い高品質な表付きデータセットを収集し、キュレートし、それぞれが明確なセマンティクス、クリーンラベル、その他の必要なメタ情報を持っていることを保証します。
(II)CT-BERTと呼ばれるクロステーブル事前学習を可能にする新しいフレームワークを提案する。
特に、大規模クロステーブルトレーニングのパイオニアとして、CT-BERTの特定のインスタンス化は下流タスクに大きく依存する、教師付きおよび自己監督型のスキームと完全に互換性がある。
さらに,コンピュータビジョンや自然言語処理のコミュニティに触発されたCT-BERTに,比較学習に基づくマスク付きテーブルモデリング(MTM)の目的を提案する。
15のデータセットに対する広範な実験結果は、CT-BERTの最先端のパフォーマンスを示し、その教師付きと自己監督型のセットアップは、以前のアプローチよりも大幅に優れていた。
関連論文リスト
- Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - TuneTables: Context Optimization for Scalable Prior-Data Fitted Networks [90.00817095558094]
我々は,事前データ対応ネットワーク(PFN)のコンテキスト最適化手法を開発した。
PFNは、事前学習とコンテキスト内学習を利用して、1つのフォワードパスで新しいタスクの強力なパフォーマンスを達成する。
我々は,大規模データセットをより小さな学習コンテキストに圧縮する新しいプロンプトチューニング戦略であるTuneTablesを提案する。
論文 参考訳(メタデータ) (2024-02-17T00:02:23Z) - MambaTab: A Simple Yet Effective Approach for Handling Tabular Data [15.487912830321042]
本研究は,表データのための構造化状態空間モデル(SSM)であるMambaTabに基づく革新的なアプローチを開発する。
MambaTabは、パラメータが大幅に少なく、プリプロセッシングが最小限で、優れたパフォーマンスを提供する。
MambaTabの効率性、スケーラビリティ、一般化可能性、予測的ゲインは、軽量で"アウト・オブ・ザ・ボックス"なソリューションであることを示している。
論文 参考訳(メタデータ) (2024-01-16T22:44:12Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - UniTabE: A Universal Pretraining Protocol for Tabular Foundation Model
in Data Science [16.384705926693073]
本研究は,データサイエンスにおける表上での予測を容易にするために,事前学習方法論の能力を拡張することを目的とする。
テーブルを一様に処理するために設計されたUniTabEは、特定のテーブル構造によって課される制約を無視する。
プレトレーニングフェーズを実装するため,Kaggleプラットフォームから正確に収集した約13Bサンプルからなる拡張データセットをキュレートした。
論文 参考訳(メタデータ) (2023-07-18T13:28:31Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z) - Embeddings for Tabular Data: A Survey [8.010589283146222]
タブラルデータは、同じ列(属性)のセットを持つ行(サンプル)を含む
テーブルは、さまざまな産業や学界でデータを保存する自然な方法になりつつある。
新しい研究の行は、様々なデータベースタスクをサポートするために様々な学習技術を適用している。
論文 参考訳(メタデータ) (2023-02-23T04:37:49Z) - ExcelFormer: A Neural Network Surpassing GBDTs on Tabular Data [8.880320970519344]
我々はExcelFormerと呼ばれる新しいニューラルネットワークを開発し、これら2つの注意モジュールを交互に置き換えて、慎重に機能インタラクションを操作し、機能埋め込みを更新する。
モデルパフォーマンスを促進するために、Bespokeトレーニング方法論を共同で導入する。
25の公開データセットの実験では、ExcelFormerは極めてチューニングされたGBDTよりも優れていることが示されています。
論文 参考訳(メタデータ) (2023-01-07T09:42:03Z) - Turning the Tables: Biased, Imbalanced, Dynamic Tabular Datasets for ML
Evaluation [3.737892247639591]
Bank Account Fraud (BAF)は、初めて公開され、プライバシーを保護し、大規模で現実的なグラフデータセットスイートである。
BAFは、時間的ダイナミクスや重要なクラス不均衡など、現実世界のアプリケーションで一般的な課題の集合である。
我々は,新しい手法と既存手法を評価するために,より現実的で完全かつ堅牢なテストベッドを研究コミュニティに提供することを目的としている。
論文 参考訳(メタデータ) (2022-11-24T00:03:29Z) - Transfer Learning with Deep Tabular Models [66.67017691983182]
上流データにより、グラフニューラルネットワークはGBDTモデルよりも決定的な優位性を示す。
そこで本研究では,表在化学習のための現実的な診断ベンチマークを提案する。
上流と下流の特徴セットが異なる場合の擬似特徴法を提案する。
論文 参考訳(メタデータ) (2022-06-30T14:24:32Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。