論文の概要: UniPredict: Large Language Models are Universal Tabular Classifiers
- arxiv url: http://arxiv.org/abs/2310.03266v2
- Date: Tue, 16 Jan 2024 20:15:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 20:39:40.704732
- Title: UniPredict: Large Language Models are Universal Tabular Classifiers
- Title(参考訳): UniPredict: 大規模言語モデルはユニバーサルタブラル分類器である
- Authors: Ruiyu Wang, Zifeng Wang, Jimeng Sun
- Abstract要約: 本稿では、生成モデル、すなわちUniPredictに基づいて、普遍的な表型データ予測器を構築するというアイデアを活用する。
多様なターゲットを持つ169データセットのアグリゲーション上で1つのLLMをトレーニングし、そのパフォーマンスを各データセットで個別にトレーニングされたベースラインと比較する。
我々は、この汎用UniPredictモデルは、最高のツリーブースティングベースラインと最高のニューラルネットワークベースラインと比較して、5.4%から13.4%の範囲で、他のモデルよりも有利であることを示す。
- 参考スコア(独自算出の注目度): 33.811778526930745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tabular data prediction is a fundamental machine learning task for many
applications. Existing methods predominantly employ discriminative modeling and
operate under the assumption of a fixed target column, necessitating
re-training for every new predictive task. Inspired by the generative power of
large language models (LLMs), this paper exploits the idea of building
universal tabular data predictors based on generative modeling, namely
UniPredict. Here, we demonstrate the scalability of an LLM to extensive tabular
datasets, enabling it to comprehend diverse tabular inputs and predict target
variables following the provided instructions. Specifically, we train a single
LLM on an aggregation of 169 tabular datasets with diverse targets and compare
its performance against baselines that are trained on each dataset separately.
We observe this versatile UniPredict model demonstrates an advantage over other
models, ranging from 5.4% to 13.4%, when compared with the best tree-boosting
baseline and the best neural network baseline, respectively. We further test
UniPredict in few-shot learning settings on another 62 tabular datasets. Our
method achieves strong performance in quickly adapting to new tasks. In
low-resource few-shot setup, we observed a 100%+ performance advantage compared
with XGBoost, and significant margin over all baselines. We envision that
UniPredict sheds light on developing a universal tabular data prediction system
that learns from data at scale and serves a wide range of prediction tasks.
- Abstract(参考訳): タブラルデータ予測は多くのアプリケーションにとって基本的な機械学習タスクである。
既存の手法では、主に識別モデリングを採用し、固定された目標列の仮定の下で動作し、新しい予測タスクごとに再訓練する必要がある。
大規模言語モデル(LLM)の生成力に触発された本論文は、生成モデル(UniPredict)に基づく普遍的な表型データ予測器を構築するというアイデアを活用する。
ここでは,広範な表型データセットへのllmのスケーラビリティを実証し,多様な表型入力の理解と,与えられた命令に従ってターゲット変数の予測を可能にした。
具体的には、1つのLCMを169個の表付きデータセットのアグリゲーションでトレーニングし、そのパフォーマンスを各データセットで個別にトレーニングされたベースラインと比較する。
この汎用的なUniPredictモデルは、それぞれ最高のツリーブースティングベースラインと最高のニューラルネットワークベースラインと比較して、5.4%から13.4%の範囲で、他のモデルよりも有利であることを示す。
さらに、62のグラフデータセット上で、数ショットの学習設定でUniPredictをテストする。
提案手法は,新しいタスクに迅速に適応することで,高い性能を実現する。
低リソース数ショット設定では、XGBoostと比較して100%以上のパフォーマンスの利点があり、すべてのベースラインに対して大きなマージンがあります。
ユニプレディクトは、大規模データから学習し、幅広い予測タスクをこなすユニバーサルな表型データ予測システムの開発に光を当てることを期待している。
関連論文リスト
- LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - Large Scale Transfer Learning for Tabular Data via Language Modeling [30.44823668480631]
グラフ予測のための言語モデルであるTabuLa-8Bを提案する。
4百万を超えるユニークなテーブルから210億行を超えるデータセットを使用します。
その結果,TabuLa-8Bはランダムな推測よりも15ポイント以上高い未確認のテーブル上でゼロショット精度を持つことがわかった。
論文 参考訳(メタデータ) (2024-06-17T18:58:20Z) - Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - SMUTF: Schema Matching Using Generative Tags and Hybrid Features [6.471515752693932]
SMUTFは、教師あり学習がオープンドメインタスクのパフォーマンスに影響を与えないと仮定する。
人道交換言語に触発された革新的な適応では、各データ列に「生成タグ」を配置します。
SMUTFは幅広い汎用性を示し、既存の事前訓練された埋め込み、分類方法、生成モデルとシームレスに機能する。
論文 参考訳(メタデータ) (2024-01-22T08:47:50Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - From Supervised to Generative: A Novel Paradigm for Tabular Deep Learning with Large Language Models [18.219485459836285]
GTL(Generative Tabular Learning)は、大規模言語モデル(LLM)の高度な機能を統合する新しいフレームワークである。
我々の実証的研究は、GTLのスケーリングの振る舞いを厳格に分析し、384の公開データセットにまたがる。
GTL-LLaMA-2モデルは、多くの分類および回帰タスクにまたがる優れたゼロショットおよびインコンテキスト学習能力を示す。
論文 参考訳(メタデータ) (2023-10-11T09:37:38Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z) - Ensemble Machine Learning Model Trained on a New Synthesized Dataset
Generalizes Well for Stress Prediction Using Wearable Devices [3.006016887654771]
本研究では,少数の被験者を含むデータセット上に構築されたモデルの一般化能力について検討した。
本研究では,新たな未知のデータに対する予測パワーを測定するために,勾配押し上げと人工ニューラルネットワークを組み合わせたアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2022-09-30T00:20:57Z) - Why do tree-based models still outperform deep learning on tabular data? [0.0]
木をベースとしたモデルが中規模データの最先端のままであることを示す。
木系モデルとニューラルネットワーク(NN)の異なる帰納バイアスに関する実証的研究を行う。
論文 参考訳(メタデータ) (2022-07-18T08:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。