論文の概要: Towards Cross-Table Masked Pretraining for Web Data Mining
- arxiv url: http://arxiv.org/abs/2307.04308v2
- Date: Thu, 1 Feb 2024 14:54:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 19:40:12.058197
- Title: Towards Cross-Table Masked Pretraining for Web Data Mining
- Title(参考訳): Webデータマイニングのためのクロスプラットフォームマスクプリトレーニングに向けて
- Authors: Chao Ye, Guoshan Lu, Haobo Wang, Liyao Li, Sai Wu, Gang Chen, Junbo
Zhao
- Abstract要約: 本稿では,CM2と呼ばれる,革新的で汎用的で効率的なクロステーブル事前学習フレームワークを提案する。
実験では,CM2の最先端性能を実証し,クロステーブルプレトレーニングが様々なダウンストリームタスクを向上させることを実証した。
- 参考スコア(独自算出の注目度): 22.952238405240188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular data pervades the landscape of the World Wide Web, playing a
foundational role in the digital architecture that underpins online
information. Given the recent influence of large-scale pretrained models like
ChatGPT and SAM across various domains, exploring the application of
pretraining techniques for mining tabular data on the web has emerged as a
highly promising research direction. Indeed, there have been some recent works
around this topic where most (if not all) of them are limited in the scope of a
fixed-schema/single table. Due to the scale of the dataset and the parameter
size of the prior models, we believe that we have not reached the ''BERT
moment'' for the ubiquitous tabular data. The development on this line
significantly lags behind the counterpart research domains such as natural
language processing. In this work, we first identify the crucial challenges
behind tabular data pretraining, particularly overcoming the cross-table
hurdle. As a pioneering endeavor, this work mainly (i)-contributes a
high-quality real-world tabular dataset, (ii)-proposes an innovative, generic,
and efficient cross-table pretraining framework, dubbed as CM2, where the core
to it comprises a semantic-aware tabular neural network that uniformly encodes
heterogeneous tables without much restriction and (iii)-introduces a novel
pretraining objective -- prompt Masked Table Modeling (pMTM) -- inspired by NLP
but intricately tailored to scalable pretraining on tables. Our extensive
experiments demonstrate CM2's state-of-the-art performance and validate that
cross-table pretraining can enhance various downstream tasks.
- Abstract(参考訳): タブラルデータはWorld Wide Webの景観に浸透し、オンライン情報を支えるデジタルアーキテクチャにおいて基礎的な役割を果たす。
様々な領域にわたるChatGPTやSAMのような大規模事前学習モデルの影響を踏まえ、ウェブ上の表層データマイニングのための事前学習技術の応用を探究する研究の方向性が高まっている。
実際、このトピックに関する最近の研究では、ほとんど(すべてではないとしても)固定スキーマ/シングルテーブルの範囲で制限されている。
データセットのスケールと先行モデルのパラメータサイズのため、ユビキタスな表データの'BERTモーメント'には達していないと考えています。
このラインの開発は、自然言語処理のような他の研究領域に大きく遅れている。
本稿ではまず,表型データ事前学習の背景にある重要な課題,特にクロステーブルなハードルを克服することを明らかにする。
先駆的な努力として この作品は主に
(i)-高品質な実世界の表型データセットを配布する。
(ii)-革新的で汎用的で効率の良いクロステーブルプリトレーニングフレームワークcm2を提唱し、そのコアは、多くの制約なしに不均一なテーブルを均一にエンコードするセマンティックアウェアな表型ニューラルネットワークで構成されている。
(iii)-NLPにインスパイアされたものの、テーブル上でのスケーラブルな事前トレーニングに高度に調整された、新しい事前学習目標(pMTM)を導入する。
広範な実験により,cm2の最先端の性能を実証し,クロステーブルプリトレーニングが様々な下流タスクを向上できることを検証した。
関連論文リスト
- TabDPT: Scaling Tabular Foundation Models [20.00390825519329]
実データによる性能向上と一般化の方法を示す。
本モデルでは,CC18(分類)およびCTR23(回帰)ベンチマークの最先端性能を実現する。
TabDPTはまた、モデルのサイズと利用可能なデータの量の両方が増加するにつれて、強力なスケーリングを示す。
論文 参考訳(メタデータ) (2024-10-23T18:00:00Z) - PORTAL: Scalable Tabular Foundation Models via Content-Specific Tokenization [7.036380633387952]
我々は、クリーニングや前処理を必要とせずに、様々なデータモダリティを処理するフレームワーク、 Portal(Pretraining One-Row-at-a-Time for All tabLes)を紹介します。
オンラインにコンパイルされたデータセットで効果的に事前トレーニングされ、複雑な分類と回帰タスクに関する最先端の手法に適合するように微調整される。
論文 参考訳(メタデータ) (2024-10-17T13:05:44Z) - Transformers with Stochastic Competition for Tabular Data Modelling [6.285325771390289]
本稿では,表型データに特化して設計された新しいディープラーニングモデルを提案する。
このモデルは、広く使用されており、公開されているさまざまなデータセットで検証されている。
これらの要素を組み込むことで、我々のモデルは高い性能が得られることを実証する。
論文 参考訳(メタデータ) (2024-07-18T07:48:48Z) - LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - UniTabE: A Universal Pretraining Protocol for Tabular Foundation Model
in Data Science [16.384705926693073]
本研究は,データサイエンスにおける表上での予測を容易にするために,事前学習方法論の能力を拡張することを目的とする。
テーブルを一様に処理するために設計されたUniTabEは、特定のテーブル構造によって課される制約を無視する。
プレトレーニングフェーズを実装するため,Kaggleプラットフォームから正確に収集した約13Bサンプルからなる拡張データセットをキュレートした。
論文 参考訳(メタデータ) (2023-07-18T13:28:31Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z) - Embeddings for Tabular Data: A Survey [8.010589283146222]
タブラルデータは、同じ列(属性)のセットを持つ行(サンプル)を含む
テーブルは、さまざまな産業や学界でデータを保存する自然な方法になりつつある。
新しい研究の行は、様々なデータベースタスクをサポートするために様々な学習技術を適用している。
論文 参考訳(メタデータ) (2023-02-23T04:37:49Z) - Transfer Learning with Deep Tabular Models [66.67017691983182]
上流データにより、グラフニューラルネットワークはGBDTモデルよりも決定的な優位性を示す。
そこで本研究では,表在化学習のための現実的な診断ベンチマークを提案する。
上流と下流の特徴セットが異なる場合の擬似特徴法を提案する。
論文 参考訳(メタデータ) (2022-06-30T14:24:32Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。