論文の概要: UniPredict: Large Language Models are Universal Tabular Predictors
- arxiv url: http://arxiv.org/abs/2310.03266v1
- Date: Thu, 5 Oct 2023 02:37:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 19:40:40.341528
- Title: UniPredict: Large Language Models are Universal Tabular Predictors
- Title(参考訳): UniPredict: 大規模言語モデルはユニバーサルタブラル予測子である
- Authors: Ruiyu Wang, Zifeng Wang, Jimeng Sun
- Abstract要約: 本稿では、生成モデル、すなわちUniPredictに基づいて、普遍的な表型データ予測器を構築するというアイデアを活用する。
多様なターゲットを持つ169データセットのアグリゲーション上で1つのLLMをトレーニングし、そのパフォーマンスを各データセットで個別にトレーニングされたベースラインと比較する。
この汎用的なUniPredictモデルは、最高のツリーブースティングベースラインと最高のニューラルネットワークベースラインと比較して、5.4%から13.4%の範囲で他のモデルよりも有利であることを示している。
- 参考スコア(独自算出の注目度): 33.811778526930745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tabular data prediction is a fundamental machine learning task for many
applications. Existing methods predominantly employ discriminative modeling and
operate under the assumption of a fixed target column, necessitating
re-training for every new predictive task. Inspired by the generative power of
large language models (LLMs), this paper exploits the idea of building
universal tabular data predictors based on generative modeling, namely
UniPredict. Here, we show that scaling up an LLM to extensive tabular datasets
with the capability of comprehending diverse tabular inputs and predicting for
target variables following the input instructions. Specifically, we train a
single LLM on an aggregation of 169 tabular datasets with diverse targets and
compare its performance against baselines that are trained on each dataset
separately. We observe this versatile UniPredict model demonstrates an
advantage over other models, ranging from 5.4% to 13.4%, when compared with the
best tree-boosting baseline and the best neural network baseline, respectively.
We further test UniPredict in few-shot learning settings on another 62 tabular
datasets. Our method achieves strong performance in quickly adapting to new
tasks, where our method outperforms XGBoost over 100% on the low-resource setup
and shows a significant margin over all baselines. We envision that UniPredict
sheds light on developing a universal tabular data prediction system that
learns from data at scale and serves a wide range of prediction tasks.
- Abstract(参考訳): タブラルデータ予測は多くのアプリケーションにとって基本的な機械学習タスクである。
既存の手法では、主に識別モデリングを採用し、固定された目標列の仮定の下で動作し、新しい予測タスクごとに再訓練する必要がある。
大規模言語モデル(LLM)の生成力に触発された本論文は、生成モデル(UniPredict)に基づく普遍的な表型データ予測器を構築するというアイデアを活用する。
ここでは,多種多様な表型入力を解釈し,入力命令に従って対象変数を予測することで,LLMを広範な表型データセットにスケールアップすることを示す。
具体的には、1つのLCMを169個の表付きデータセットのアグリゲーションでトレーニングし、そのパフォーマンスを各データセットで個別にトレーニングされたベースラインと比較する。
この汎用的なUniPredictモデルは、それぞれ最高のツリーブースティングベースラインと最高のニューラルネットワークベースラインと比較して、5.4%から13.4%の範囲で、他のモデルよりも有利であることを示す。
さらに、62のグラフデータセット上で、数ショットの学習設定でUniPredictをテストする。
提案手法は,低リソース環境においてXGBoostを100%以上上回り,全てのベースラインに対して有意な差を示すため,新しいタスクに迅速に適応する上で高い性能を発揮する。
ユニプレディクトは、大規模データから学習し、幅広い予測タスクをこなすユニバーサルな表型データ予測システムの開発に光を当てることを期待している。
関連論文リスト
- LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - Large Scale Transfer Learning for Tabular Data via Language Modeling [30.44823668480631]
グラフ予測のための言語モデルであるTabuLa-8Bを提案する。
4百万を超えるユニークなテーブルから210億行を超えるデータセットを使用します。
その結果,TabuLa-8Bはランダムな推測よりも15ポイント以上高い未確認のテーブル上でゼロショット精度を持つことがわかった。
論文 参考訳(メタデータ) (2024-06-17T18:58:20Z) - Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - SMUTF: Schema Matching Using Generative Tags and Hybrid Features [6.471515752693932]
SMUTFは、教師あり学習がオープンドメインタスクのパフォーマンスに影響を与えないと仮定する。
人道交換言語に触発された革新的な適応では、各データ列に「生成タグ」を配置します。
SMUTFは幅広い汎用性を示し、既存の事前訓練された埋め込み、分類方法、生成モデルとシームレスに機能する。
論文 参考訳(メタデータ) (2024-01-22T08:47:50Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - From Supervised to Generative: A Novel Paradigm for Tabular Deep Learning with Large Language Models [18.219485459836285]
GTL(Generative Tabular Learning)は、大規模言語モデル(LLM)の高度な機能を統合する新しいフレームワークである。
我々の実証的研究は、GTLのスケーリングの振る舞いを厳格に分析し、384の公開データセットにまたがる。
GTL-LLaMA-2モデルは、多くの分類および回帰タスクにまたがる優れたゼロショットおよびインコンテキスト学習能力を示す。
論文 参考訳(メタデータ) (2023-10-11T09:37:38Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z) - Ensemble Machine Learning Model Trained on a New Synthesized Dataset
Generalizes Well for Stress Prediction Using Wearable Devices [3.006016887654771]
本研究では,少数の被験者を含むデータセット上に構築されたモデルの一般化能力について検討した。
本研究では,新たな未知のデータに対する予測パワーを測定するために,勾配押し上げと人工ニューラルネットワークを組み合わせたアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2022-09-30T00:20:57Z) - Why do tree-based models still outperform deep learning on tabular data? [0.0]
木をベースとしたモデルが中規模データの最先端のままであることを示す。
木系モデルとニューラルネットワーク(NN)の異なる帰納バイアスに関する実証的研究を行う。
論文 参考訳(メタデータ) (2022-07-18T08:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。