論文の概要: Large Scale Transfer Learning for Tabular Data via Language Modeling
- arxiv url: http://arxiv.org/abs/2406.12031v2
- Date: Wed, 20 Nov 2024 21:20:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:17:20.610409
- Title: Large Scale Transfer Learning for Tabular Data via Language Modeling
- Title(参考訳): 言語モデリングによる語彙データの大規模伝達学習
- Authors: Josh Gardner, Juan C. Perdomo, Ludwig Schmidt,
- Abstract要約: グラフ予測のための言語モデルであるTabuLa-8Bを提案する。
4百万を超えるユニークなテーブルから210億行を超えるデータセットを使用します。
その結果,TabuLa-8Bはランダムな推測よりも15ポイント以上高い未確認のテーブル上でゼロショット精度を持つことがわかった。
- 参考スコア(独自算出の注目度): 30.44823668480631
- License:
- Abstract: Tabular data -- structured, heterogeneous, spreadsheet-style data with rows and columns -- is widely used in practice across many domains. However, while recent foundation models have reduced the need for developing task-specific datasets and predictors in domains such as language modeling and computer vision, this transfer learning paradigm has not had similar impact in the tabular domain. In this work, we seek to narrow this gap and present TabuLa-8B, a language model for tabular prediction. We define a process for extracting a large, high-quality training dataset from the TabLib corpus, proposing methods for tabular data filtering and quality control. Using the resulting dataset, which comprises over 2.1B rows from over 4M unique tables, we fine-tune a Llama 3-8B large language model (LLM) for tabular data prediction (classification and binned regression) using a novel packing and attention scheme for tabular prediction. Through evaluation across a test suite of 329 datasets, we find that TabuLa-8B has zero-shot accuracy on unseen tables that is over 15 percentage points (pp) higher than random guessing, a feat that is not possible with existing state-of-the-art tabular prediction models (e.g. XGBoost, TabPFN). In the few-shot setting (1-32 shots), without any fine-tuning on the target datasets, TabuLa-8B is 5-15 pp more accurate than XGBoost and TabPFN models that are explicitly trained on equal, or even up to 16x more data. We release our model, code, and data along with the publication of this paper.
- Abstract(参考訳): 構造的、異質で、行と列を持つスプレッドシートスタイルのデータであるタブラルデータは、実際には多くのドメインで広く使われている。
しかし、近年の基盤モデルでは、言語モデリングやコンピュータビジョンなどの領域におけるタスク固有のデータセットや予測器の開発の必要性が減っているが、この伝達学習パラダイムは表領域に類似した影響を与えていない。
本研究では,このギャップを狭め,表型予測のための言語モデルであるTabuLa-8Bを提案する。
本研究では,TabLibコーパスから大規模で高品質なトレーニングデータセットを抽出するプロセスを定義し,表型データフィルタリングと品質管理の手法を提案する。
4Mを超えるユニークなテーブルから2.1B行を超えるデータセットを用いて、新しいパッキングとアテンションスキームを用いて、表データ予測(分類とバイナリ回帰)のためのLlama 3-8B大言語モデル(LLM)を微調整する。
329のデータセットからなるテストスイートで評価した結果,TabuLa-8Bはランダムな推測よりも15ポイント(pp)高い未確認テーブル上でゼロショット精度を持つことがわかった。
ターゲットデータセットを微調整することなく、数ショット設定(1-32ショット)で、TabuLa-8Bは、XGBoostやTabPFNモデルよりも5~15pp正確で、そのモデルでは、XGBoostとTabPFNは、同等または最大16倍のデータで明示的にトレーニングされている。
この論文の出版とともに、私たちのモデル、コード、データをリリースします。
関連論文リスト
- LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - Tokenize features, enhancing tables: the FT-TABPFN model for tabular classification [13.481699494376809]
FT-TabPFNはTabPFNの拡張版で、分類機能をよりよく扱うための新しい機能トークン化レイヤを含んでいる。
私たちの完全なソースコードは、コミュニティの利用と開発に利用可能です。
論文 参考訳(メタデータ) (2024-06-11T02:13:46Z) - 4DBInfer: A 4D Benchmarking Toolbox for Graph-Centric Predictive Modeling on Relational DBs [67.47600679176963]
RDBは、相互接続されたテーブルにまたがる膨大な量のリッチで情報的なデータを格納する。
予測機械学習モデルの進歩は、コンピュータビジョンや自然言語処理といった他の領域の進歩に遅れをとっている。
マルチテーブルデータセットをグラフに変換することを前提としたベースラインモデルのクラスを探索する。
大規模RDBデータセットと (ii) 同時予測タスクの多様なコレクションを組み立てる。
論文 参考訳(メタデータ) (2024-04-28T15:04:54Z) - Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - In-Context Data Distillation with TabPFN [11.553950697974825]
In-context data distillation (ICD) は、TabPFNのコンテキストを最適化することでこれらの制約を効果的に除去する新しい手法である。
ICDにより、TabPFNは固定メモリ予算ではるかに大きなデータセットを処理でき、TabPFNの二次メモリの複雑さは向上するが、多くのチューニングステップのコストがかかる。
論文 参考訳(メタデータ) (2024-02-10T15:23:45Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - UniPredict: Large Language Models are Universal Tabular Classifiers [33.811778526930745]
本稿では、生成モデル、すなわちUniPredictに基づいて、普遍的な表型データ予測器を構築するというアイデアを活用する。
多様なターゲットを持つ169データセットのアグリゲーション上で1つのLLMをトレーニングし、そのパフォーマンスを各データセットで個別にトレーニングされたベースラインと比較する。
我々は、この汎用UniPredictモデルは、最高のツリーブースティングベースラインと最高のニューラルネットワークベースラインと比較して、5.4%から13.4%の範囲で、他のモデルよりも有利であることを示す。
論文 参考訳(メタデータ) (2023-10-05T02:37:09Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z) - TabLLM: Few-shot Classification of Tabular Data with Large Language
Models [66.03023402174138]
大規模言語モデルのゼロショットおよび少数ショット分類への応用について検討する。
テンプレートやテーブル・ツー・テキストモデル,大規模言語モデルなど,いくつかのシリアライズ手法を評価する。
このアプローチは、勾配木のような強力な伝統的なベースラインとも競合する。
論文 参考訳(メタデータ) (2022-10-19T17:08:13Z) - PTab: Using the Pre-trained Language Model for Modeling Tabular Data [5.791972449406902]
近年の研究では、ニューラルネットワークモデルがタブラルデータの文脈表現の学習に有効であることが示されている。
本稿では,事前学習言語モデルを用いて,タブラルデータをモデル化する新しいフレームワークPTabを提案する。
提案手法は,最先端のベースラインに比べて,教師付き設定における平均AUCスコアが向上した。
論文 参考訳(メタデータ) (2022-09-15T08:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。