Fugu-MT 論文翻訳(概要): CT-BERT: Learning Better Tabular Representations Through Cross-Table Pre-training

論文の概要: CT-BERT: Learning Better Tabular Representations Through Cross-Table Pre-training

arxiv url: http://arxiv.org/abs/2307.04308v1
Date: Mon, 10 Jul 2023 02:27:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-11 14:20:42.817234
Title: CT-BERT: Learning Better Tabular Representations Through Cross-Table Pre-training
Title（参考訳）: CT-BERT: クロステーブル・プレトレーニングによるより良いタブラリ表現の学習
Authors: Chao Ye, Guoshan Lu, Haobo Wang, Liyao Li, Sai Wu, Gang Chen, Junbo Zhao
Abstract要約: 我々はCT-BERTと呼ばれるクロステーブル事前学習を可能にする新しいフレームワークを提案する。 CT-BERTは、教師付きスキームと自己監督型スキームの両方と完全に互換性がある。 15のデータセットの結果は、CT-BERTの最先端のパフォーマンスを示している。
参考スコア（独自算出の注目度）: 15.166256603069792
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Tabular data -- also known as structured data -- is one of the most common data forms in existence, thanks to the stable development and scaled deployment of database systems in the last few decades. At present however, despite the blast brought by large pre-trained models in other domains such as ChatGPT or SAM, how can we extract common knowledge across tables at a scale that may eventually lead to generalizable representation for tabular data remains a full blank. Indeed, there have been a few works around this topic. Most (if not all) of them are limited in the scope of a single table or fixed form of a schema. In this work, we first identify the crucial research challenges behind tabular data pre-training, particularly towards the cross-table scenario. We position the contribution of this work in two folds: (i)-we collect and curate nearly 2k high-quality tabular datasets, each of which is guaranteed to possess clear semantics, clean labels, and other necessary meta information. (ii)-we propose a novel framework that allows cross-table pre-training dubbed as CT-BERT. Noticeably, in light of pioneering the scaled cross-table training, CT-BERT is fully compatible with both supervised and self-supervised schemes, where the specific instantiation of CT-BERT is very much dependent on the downstream tasks. We further propose and implement a contrastive-learning-based and masked table modeling (MTM) objective into CT-BERT, that is inspired from computer vision and natural language processing communities but sophistically tailored to tables. The extensive empirical results on 15 datasets demonstrate CT-BERT's state-of-the-art performance, where both its supervised and self-supervised setups significantly outperform the prior approaches.
Abstract（参考訳）: タブラルデータ(構造化データとしても知られる)は、過去数十年間のデータベースシステムの安定した開発と大規模展開のおかげで、現存する最も一般的なデータフォームの1つである。しかし、ChatGPTやSAMのような他の領域で事前訓練された大規模なモデルによってもたらされた爆発にもかかわらず、最終的に表データの一般化可能な表現に繋がるようなスケールで、どのようにしてテーブル間で共通知識を抽出できるかは、まだ完全に空白のままである。実際、このトピックに関するいくつかの研究がある。それらのほとんどは(すべてではないとしても)単一のテーブルのスコープやスキーマの固定形式に制限されている。本稿では,まず,表データ事前学習の背後にある重要な研究課題,特にクロステーブルシナリオについて明らかにする。私たちはこの作品の貢献を2つにまとめる。 i)2k近い高品質な表付きデータセットを収集し、キュレートし、それぞれが明確なセマンティクス、クリーンラベル、その他の必要なメタ情報を持っていることを保証します。 (II)CT-BERTと呼ばれるクロステーブル事前学習を可能にする新しいフレームワークを提案する。特に、大規模クロステーブルトレーニングのパイオニアとして、CT-BERTの特定のインスタンス化は下流タスクに大きく依存する、教師付きおよび自己監督型のスキームと完全に互換性がある。さらに,コンピュータビジョンや自然言語処理のコミュニティに触発されたCT-BERTに,比較学習に基づくマスク付きテーブルモデリング(MTM)の目的を提案する。 15のデータセットに対する広範な実験結果は、CT-BERTの最先端のパフォーマンスを示し、その教師付きと自己監督型のセットアップは、以前のアプローチよりも大幅に優れていた。

関連論文リスト

Prior-Fitted Networks Scale to Larger Datasets When Treated as Weak Learners [82.72552644267724]
BoostPFNは、大規模なデータセットでトレーニングサンプルと同じサイズで、標準的なPFNよりもパフォーマンスがよい。高い性能はPFNのトレーニング前サイズの最大50倍まで維持される。
論文参考訳（メタデータ） (2025-03-03T07:31:40Z)
A Closer Look at TabPFN v2: Strength, Limitation, and Extension [51.08999772842298]
Tabular Prior-data Fitted Network v2 (TabPFN v2)は、複数のデータセットにまたがる前例のないコンテキスト内学習の精度を達成する。本稿では,300以上のデータセット上でTabPFN v2を評価し,中小規模タスクにおける例外的な一般化機能を確認する。
論文参考訳（メタデータ） (2025-02-24T17:38:42Z)
TabDPT: Scaling Tabular Foundation Models [20.00390825519329]
実データによる性能向上と一般化の方法を示す。本モデルでは,CC18(分類)およびCTR23(回帰)ベンチマークの最先端性能を実現する。 TabDPTはまた、モデルのサイズと利用可能なデータの量の両方が増加するにつれて、強力なスケーリングを示す。
論文参考訳（メタデータ） (2024-10-23T18:00:00Z)
PORTAL: Scalable Tabular Foundation Models via Content-Specific Tokenization [7.036380633387952]
我々は、クリーニングや前処理を必要とせずに、様々なデータモダリティを処理するフレームワーク、 Portal(Pretraining One-Row-at-a-Time for All tabLes)を紹介します。オンラインにコンパイルされたデータセットで効果的に事前トレーニングされ、複雑な分類と回帰タスクに関する最先端の手法に適合するように微調整される。
論文参考訳（メタデータ） (2024-10-17T13:05:44Z)
Transformers with Stochastic Competition for Tabular Data Modelling [6.285325771390289]
本稿では,表型データに特化して設計された新しいディープラーニングモデルを提案する。このモデルは、広く使用されており、公開されているさまざまなデータセットで検証されている。これらの要素を組み込むことで、我々のモデルは高い性能が得られることを実証する。
論文参考訳（メタデータ） (2024-07-18T07:48:48Z)
LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。 LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。 LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文参考訳（メタデータ） (2024-06-25T16:03:50Z)
Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文参考訳（メタデータ） (2024-03-04T08:38:56Z)
Training-Free Generalization on Heterogeneous Tabular Data via Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文参考訳（メタデータ） (2023-10-31T18:03:54Z)
UniTabE: A Universal Pretraining Protocol for Tabular Foundation Model in Data Science [16.384705926693073]
本研究は,データサイエンスにおける表上での予測を容易にするために,事前学習方法論の能力を拡張することを目的とする。テーブルを一様に処理するために設計されたUniTabEは、特定のテーブル構造によって課される制約を無視する。プレトレーニングフェーズを実装するため,Kaggleプラットフォームから正確に収集した約13Bサンプルからなる拡張データセットをキュレートした。
論文参考訳（メタデータ） (2023-07-18T13:28:31Z)
Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。 TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。 LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文参考訳（メタデータ） (2023-05-16T06:37:38Z)
Embeddings for Tabular Data: A Survey [8.010589283146222]
タブラルデータは、同じ列(属性)のセットを持つ行(サンプル)を含むテーブルは、さまざまな産業や学界でデータを保存する自然な方法になりつつある。新しい研究の行は、様々なデータベースタスクをサポートするために様々な学習技術を適用している。
論文参考訳（メタデータ） (2023-02-23T04:37:49Z)
Transfer Learning with Deep Tabular Models [66.67017691983182]
上流データにより、グラフニューラルネットワークはGBDTモデルよりも決定的な優位性を示す。そこで本研究では,表在化学習のための現実的な診断ベンチマークを提案する。上流と下流の特徴セットが異なる場合の擬似特徴法を提案する。
論文参考訳（メタデータ） (2022-06-30T14:24:32Z)
GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文参考訳（メタデータ） (2020-09-29T08:17:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。