論文の概要: Making Pre-trained Language Models Great on Tabular Prediction
- arxiv url: http://arxiv.org/abs/2403.01841v1
- Date: Mon, 4 Mar 2024 08:38:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 19:24:49.218123
- Title: Making Pre-trained Language Models Great on Tabular Prediction
- Title(参考訳): 単語予測による事前学習言語モデルの作成
- Authors: Jiahuan Yan, Bo Zheng, Hongxia Xu, Yiheng Zhu, Danny Chen, Jimeng Sun,
Jian Wu, Jintai Chen
- Abstract要約: ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
表型データ予測のための訓練済みLMモデルであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
- 参考スコア(独自算出の注目度): 40.43798935372373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The transferability of deep neural networks (DNNs) has made significant
progress in image and language processing. However, due to the heterogeneity
among tables, such DNN bonus is still far from being well exploited on tabular
data prediction (e.g., regression or classification tasks). Condensing
knowledge from diverse domains, language models (LMs) possess the capability to
comprehend feature names from various tables, potentially serving as versatile
learners in transferring knowledge across distinct tables and diverse
prediction tasks, but their discrete text representation space is inherently
incompatible with numerical feature values in tables. In this paper, we present
TP-BERTa, a specifically pre-trained LM model for tabular data prediction.
Concretely, a novel relative magnitude tokenization converts scalar numerical
feature values to finely discrete, high-dimensional tokens, and an
intra-feature attention approach integrates feature values with the
corresponding feature names. Comprehensive experiments demonstrate that our
pre-trained TP-BERTa leads the performance among tabular DNNs and is
competitive with Gradient Boosted Decision Tree models in typical tabular data
regime.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
しかし、テーブル間の不均一性のため、そのようなDNNボーナスは表データの予測(回帰や分類タスクなど)によく利用されるには程遠い。
多様なドメインからの知識を凝縮し、言語モデル(lms)は様々なテーブルから特徴名を理解する能力を持ち、異なるテーブルと様々な予測タスク間で知識を伝達する多用途学習者となる可能性があるが、それらの離散的なテキスト表現空間は本質的にテーブル内の数値的特徴量と相容れない。
本稿では,表型データ予測のための訓練済みLMモデルであるTP-BERTaを提案する。
具体的には、新しい相対等級トークン化により、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
包括的実験により、我々の事前学習したTP-BERTaは、表状DNNのパフォーマンスを誘導し、典型的な表状データ構造における勾配ブースト決定木モデルと競合することを示した。
関連論文リスト
- A Survey on Deep Tabular Learning [0.0]
タブラルデータは、その不均一な性質と空間構造が欠如していることから、深層学習の独特な課題を提示する。
本調査では,早期完全接続ネットワーク(FCN)から,TabNet,SAINT,TabTranSELU,MambaNetといった先進アーキテクチャに至るまで,タブラルデータのディープラーニングモデルの進化を概観する。
論文 参考訳(メタデータ) (2024-10-15T20:08:08Z) - InterpreTabNet: Distilling Predictive Signals from Tabular Data by Salient Feature Interpretation [7.67293014317639]
本稿では,注意機構をGumbel-Softmax分布からサンプリングした潜在変数としてモデル化するTabNetモデルの変種を提案する。
これにより、KLディバージェンス正規化器を用いて、注意マスクの異なる概念を学習できるようにモデルを正規化することができる。
モデルの有効性を最大化し、解釈可能性を向上させるようなスパーシティを促進することで、重複した特徴選択を防止する。
論文 参考訳(メタデータ) (2024-06-01T12:48:11Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Unlocking the Transferability of Tokens in Deep Models for Tabular Data [67.11727608815636]
トレーニング済みのディープニューラルネットワークの微調整は、さまざまな機械学習タスクにおいて成功しているパラダイムとなっている。
本稿では,特徴トークンの品質向上を目的としたTabTokenを提案する。
トークンを規則化し、機能内および機能間のセマンティクスをキャプチャする、対照的な目的を導入します。
論文 参考訳(メタデータ) (2023-10-23T17:53:09Z) - Transfer Learning with Deep Tabular Models [66.67017691983182]
上流データにより、グラフニューラルネットワークはGBDTモデルよりも決定的な優位性を示す。
そこで本研究では,表在化学習のための現実的な診断ベンチマークを提案する。
上流と下流の特徴セットが異なる場合の擬似特徴法を提案する。
論文 参考訳(メタデータ) (2022-06-30T14:24:32Z) - SubTab: Subsetting Features of Tabular Data for Self-Supervised
Representation Learning [5.5616364225463055]
私たちはTabular Data(SubTab)のサブセット機能である新しいフレームワークを紹介します。
本稿では,タブラルデータ(SubTab)のサブセット機能である新しいフレームワークを提案する。
我々は、自動エンコーダ設定で、その機能の一部分からデータを再構成することで、その基盤となる表現をよりよく捉えることができると論じている。
論文 参考訳(メタデータ) (2021-10-08T20:11:09Z) - TabGNN: Multiplex Graph Neural Network for Tabular Data Prediction [43.35301059378836]
最近普及しているグラフニューラルネットワーク(GNN)に基づく新しいフレームワークTabGNNを提案する。
具体的には,まず,多面的サンプル関係をモデル化するための多重グラフを構築し,次に,各サンプルに対する拡張表現を学習するための多重グラフニューラルネットワークを設計する。
分類と回帰を含む11のTDPデータセットに対する実験は、TabGNNが一貫して性能を向上できることを示している。
論文 参考訳(メタデータ) (2021-08-20T11:51:32Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z) - TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data [113.29476656550342]
本研究では,NL文と表の表現を共同で学習する事前学習型LMであるTaBERTを提案する。
TaBERTは、600万のテーブルとその英語コンテキストからなる大規模なコーパスで訓練されている。
モデルの実装はhttp://fburl.com/TaBERT.comで公開される。
論文 参考訳(メタデータ) (2020-05-17T17:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。