論文の概要: Cross-Table Pretraining towards a Universal Function Space for Heterogeneous Tabular Data
- arxiv url: http://arxiv.org/abs/2406.00281v1
- Date: Sat, 1 Jun 2024 03:24:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 07:54:19.364286
- Title: Cross-Table Pretraining towards a Universal Function Space for Heterogeneous Tabular Data
- Title(参考訳): 不均一な語彙データに対する普遍関数空間へのクロステーブル事前学習
- Authors: Jintai Chen, Zhen Lin, Qiyuan Chen, Jimeng Sun,
- Abstract要約: クロスデータセット事前トレーニングは、様々な分野で顕著な成功を収めている。
本研究では,多目的な下流表予測タスクのためのクロステーブル事前学習型トランスであるXTFormerを提案する。
我々の手法は、XTFormerを事前訓練して、全ての潜在的な機能ターゲットマッピングを含む「メタ関数」空間を確立することである。
- 参考スコア(独自算出の注目度): 35.61663559675556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular data from different tables exhibit significant diversity due to varied definitions and types of features, as well as complex inter-feature and feature-target relationships. Cross-dataset pretraining, which learns reusable patterns from upstream data to support downstream tasks, have shown notable success in various fields. Yet, when applied to tabular data prediction, this paradigm faces challenges due to the limited reusable patterns among diverse tabular datasets (tables) and the general scarcity of tabular data available for fine-tuning. In this study, we fill this gap by introducing a cross-table pretrained Transformer, XTFormer, for versatile downstream tabular prediction tasks. Our methodology insight is pretraining XTFormer to establish a "meta-function" space that encompasses all potential feature-target mappings. In pre-training, a variety of potential mappings are extracted from pre-training tabular datasets and are embedded into the "meta-function" space, and suited mappings are extracted from the "meta-function" space for downstream tasks by a specified coordinate positioning approach. Experiments show that, in 190 downstream tabular prediction tasks, our cross-table pretrained XTFormer wins both XGBoost and Catboost on 137 (72%) tasks, and surpasses representative deep learning models FT-Transformer and the tabular pre-training approach XTab on 144 (76%) and 162 (85%) tasks.
- Abstract(参考訳): 異なる表からのタブラリデータは、様々な定義や特徴の種類、複雑な機能間関係や特徴-対象関係により、大きな多様性を示す。
上流データから再利用可能なパターンを学習し、下流タスクをサポートするクロスデータセット事前学習は、様々な分野で顕著な成功を収めている。
しかし、表型データ予測に適用した場合、様々な表型データセット(テーブル)の再利用パターンの制限と、微調整に利用可能な表型データの全般的不足により、このパラダイムは課題に直面している。
本研究では,このギャップを,クロステーブルな事前学習型変換器,XTFormerを導入して,下流の多目的な表型予測タスクを実現する。
我々の方法論の洞察は、XTFormerを事前訓練し、全ての潜在的な機能ターゲットマッピングを含む「メタ関数」空間を確立することである。
事前学習では、事前学習した表型データセットから様々なポテンシャルマッピングを抽出し、「メタファンクション」空間に埋め込み、特定の座標位置決めアプローチにより下流タスクのための「メタファンクション」空間から適切なマッピングを抽出する。
実験によると、190の下流の表型予測タスクでは、XTFormerは137タスクでXGBoostとCatboostの両方に勝利し、代表的なディープラーニングモデルFT-Transformerと144タスク(76%)と162タスク(85%)で表型事前学習アプローチXTabを上回っている。
関連論文リスト
- TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - Tabular Few-Shot Generalization Across Heterogeneous Feature Spaces [43.67453625260335]
異種特徴空間を持つデータセット間での知識共有を含む数ショット学習のための新しいアプローチを提案する。
FLATはデータセットとその個々の列の低次元埋め込みを学習し、それまで見つからなかったデータセットへの知識伝達と一般化を容易にする。
デコーダネットワークは、グラフ注意ネットワークとして実装された予測対象ネットワークをパラメータ化して、表形式のデータセットの不均一性に対応する。
論文 参考訳(メタデータ) (2023-11-16T17:45:59Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - MediTab: Scaling Medical Tabular Data Predictors via Data Consolidation, Enrichment, and Refinement [44.693325083735424]
患者の健康リスク予測などの医療応用において,タブラルデータ予測が採用されている。
以前の予測子は、手動でキュレートされた小さなデータセットでトレーニングされることが多い。
論文 参考訳(メタデータ) (2023-05-20T03:37:09Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z) - XTab: Cross-table Pretraining for Tabular Transformers [29.419276738753968]
XTabは、さまざまなドメインのデータセット上の表型トランスフォーマーのクロステーブル事前トレーニングのためのフレームワークである。
XTabは、複数の表型変換器の一般化性、学習速度、性能を一貫して向上させることを示す。
回帰、二分法、多クラス分類といった様々なタスクにおいて、最先端の表層深層学習モデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-05-10T12:17:52Z) - Learning Enhanced Representations for Tabular Data via Neighborhood
Propagation [24.485479610138498]
データインスタンスのクロスローパターンとクロスカラムパターンをモデル化するハイパーグラフを構築した。
次に、ターゲットデータインスタンス表現を強化するためにメッセージの伝搬を行います。
2つの重要なデータ予測タスクの実験は、提案したPETモデルの優越性を検証する。
論文 参考訳(メタデータ) (2022-06-14T04:24:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。