Fugu-MT 論文翻訳(概要): UniPredict: Large Language Models are Universal Tabular Classifiers

論文の概要: UniPredict: Large Language Models are Universal Tabular Classifiers

arxiv url: http://arxiv.org/abs/2310.03266v2
Date: Tue, 16 Jan 2024 20:15:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 20:39:40.704732
Title: UniPredict: Large Language Models are Universal Tabular Classifiers
Title（参考訳）: UniPredict: 大規模言語モデルはユニバーサルタブラル分類器である
Authors: Ruiyu Wang, Zifeng Wang, Jimeng Sun
Abstract要約: 本稿では、生成モデル、すなわちUniPredictに基づいて、普遍的な表型データ予測器を構築するというアイデアを活用する。多様なターゲットを持つ169データセットのアグリゲーション上で1つのLLMをトレーニングし、そのパフォーマンスを各データセットで個別にトレーニングされたベースラインと比較する。我々は、この汎用UniPredictモデルは、最高のツリーブースティングベースラインと最高のニューラルネットワークベースラインと比較して、5.4%から13.4%の範囲で、他のモデルよりも有利であることを示す。
参考スコア（独自算出の注目度）: 33.811778526930745
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Tabular data prediction is a fundamental machine learning task for many applications. Existing methods predominantly employ discriminative modeling and operate under the assumption of a fixed target column, necessitating re-training for every new predictive task. Inspired by the generative power of large language models (LLMs), this paper exploits the idea of building universal tabular data predictors based on generative modeling, namely UniPredict. Here, we demonstrate the scalability of an LLM to extensive tabular datasets, enabling it to comprehend diverse tabular inputs and predict target variables following the provided instructions. Specifically, we train a single LLM on an aggregation of 169 tabular datasets with diverse targets and compare its performance against baselines that are trained on each dataset separately. We observe this versatile UniPredict model demonstrates an advantage over other models, ranging from 5.4% to 13.4%, when compared with the best tree-boosting baseline and the best neural network baseline, respectively. We further test UniPredict in few-shot learning settings on another 62 tabular datasets. Our method achieves strong performance in quickly adapting to new tasks. In low-resource few-shot setup, we observed a 100%+ performance advantage compared with XGBoost, and significant margin over all baselines. We envision that UniPredict sheds light on developing a universal tabular data prediction system that learns from data at scale and serves a wide range of prediction tasks.
Abstract（参考訳）: タブラルデータ予測は多くのアプリケーションにとって基本的な機械学習タスクである。既存の手法では、主に識別モデリングを採用し、固定された目標列の仮定の下で動作し、新しい予測タスクごとに再訓練する必要がある。大規模言語モデル(LLM)の生成力に触発された本論文は、生成モデル(UniPredict)に基づく普遍的な表型データ予測器を構築するというアイデアを活用する。ここでは,広範な表型データセットへのllmのスケーラビリティを実証し,多様な表型入力の理解と,与えられた命令に従ってターゲット変数の予測を可能にした。具体的には、1つのLCMを169個の表付きデータセットのアグリゲーションでトレーニングし、そのパフォーマンスを各データセットで個別にトレーニングされたベースラインと比較する。この汎用的なUniPredictモデルは、それぞれ最高のツリーブースティングベースラインと最高のニューラルネットワークベースラインと比較して、5.4%から13.4%の範囲で、他のモデルよりも有利であることを示す。さらに、62のグラフデータセット上で、数ショットの学習設定でUniPredictをテストする。提案手法は,新しいタスクに迅速に適応することで,高い性能を実現する。低リソース数ショット設定では、XGBoostと比較して100%以上のパフォーマンスの利点があり、すべてのベースラインに対して大きなマージンがあります。ユニプレディクトは、大規模データから学習し、幅広い予測タスクをこなすユニバーサルな表型データ予測システムの開発に光を当てることを期待している。

関連論文リスト

SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
Make Still Further Progress: Chain of Thoughts for Tabular Data Leaderboard [27.224577475861214]
機械学習の基本的なデータフォーマットであるタブラルデータは、競争や現実世界のアプリケーションで主に利用されている。本研究では,大規模言語モデルを活用したテキスト内アンサンブルフレームワークを提案する。提案手法は,各テストインスタンスの周囲のコンテキストを,その近傍と外部モデルのプールからの予測を用いて構築する。
論文参考訳（メタデータ） (2025-05-19T17:52:58Z)
Representation Learning for Tabular Data: A Comprehensive Survey [23.606506938919605]
行と列として構造化されたタブラルデータは、機械学習の分類と回帰アプリケーションにおいて最も一般的なデータタイプの一つである。ディープニューラルネットワーク(DNN)は、最近、表現学習の能力を通じて有望な結果を実証した。既存の手法を一般化能力に応じて3つの主要なカテゴリに分類する。
論文参考訳（メタデータ） (2025-04-17T17:58:23Z)
Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文参考訳（メタデータ） (2025-02-17T18:04:39Z)
Zero-shot Meta-learning for Tabular Prediction Tasks with Adversarially Pre-trained Transformer [2.1677183904102257]
本稿では、実世界のデータセットを事前学習することなく、表形式の予測タスクでゼロショットメタ学習を行うことのできるAdversarially Pre-trained Transformer(APT)を提案する。 APTは、異なる合成データセットで意図的にモデルに挑戦する敵対的な合成データエージェントで事前訓練されている。筆者らのフレームワークは,データセットの特徴をフィルタリングすることなく,小さな分類タスクにおける最先端のパフォーマンスと一致していることを示す。
論文参考訳（メタデータ） (2025-02-06T23:58:11Z)
TabDPT: Scaling Tabular Foundation Models on Real Data [20.00390825519329]
ICLに基づく検索と自己教師付き学習を組み合わせた基礎モデルの学習手法を提案する。事前学習フェーズに実際のデータを組み込むことで、学習が大幅に速くなり、見当たらないデータへの一般化が向上することを示す。得られたモデルであるTabDPTは回帰 (CTR23) と分類 (CC18) のベンチマークで最高の性能を達成する。
論文参考訳（メタデータ） (2024-10-23T18:00:00Z)
LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文参考訳（メタデータ） (2024-07-02T22:23:40Z)
LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。 LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。 LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文参考訳（メタデータ） (2024-06-25T16:03:50Z)
Large Scale Transfer Learning for Tabular Data via Language Modeling [30.44823668480631]
グラフ予測のための言語モデルであるTabuLa-8Bを提案する。 4百万を超えるユニークなテーブルから210億行を超えるデータセットを使用します。その結果,TabuLa-8Bはランダムな推測よりも15ポイント以上高い未確認のテーブル上でゼロショット精度を持つことがわかった。
論文参考訳（メタデータ） (2024-06-17T18:58:20Z)
Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文参考訳（メタデータ） (2024-03-04T08:38:56Z)
SMUTF: Schema Matching Using Generative Tags and Hybrid Features [6.471515752693932]
SMUTFは、教師あり学習がオープンドメインタスクのパフォーマンスに影響を与えないと仮定する。人道交換言語に触発された革新的な適応では、各データ列に「生成タグ」を配置します。 SMUTFは幅広い汎用性を示し、既存の事前訓練された埋め込み、分類方法、生成モデルとシームレスに機能する。
論文参考訳（メタデータ） (2024-01-22T08:47:50Z)
Training-Free Generalization on Heterogeneous Tabular Data via Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文参考訳（メタデータ） (2023-10-31T18:03:54Z)
From Supervised to Generative: A Novel Paradigm for Tabular Deep Learning with Large Language Models [18.219485459836285]
GTL(Generative Tabular Learning)は、大規模言語モデル(LLM)の高度な機能を統合する新しいフレームワークである。我々の実証的研究は、GTLのスケーリングの振る舞いを厳格に分析し、384の公開データセットにまたがる。 GTL-LLaMA-2モデルは、多くの分類および回帰タスクにまたがる優れたゼロショットおよびインコンテキスト学習能力を示す。
論文参考訳（メタデータ） (2023-10-11T09:37:38Z)
Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文参考訳（メタデータ） (2023-06-25T02:39:19Z)
Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。 TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。 LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文参考訳（メタデータ） (2023-05-16T06:37:38Z)
Ensemble Machine Learning Model Trained on a New Synthesized Dataset Generalizes Well for Stress Prediction Using Wearable Devices [3.006016887654771]
本研究では,少数の被験者を含むデータセット上に構築されたモデルの一般化能力について検討した。本研究では,新たな未知のデータに対する予測パワーを測定するために,勾配押し上げと人工ニューラルネットワークを組み合わせたアンサンブル手法を提案する。
論文参考訳（メタデータ） (2022-09-30T00:20:57Z)
Why do tree-based models still outperform deep learning on tabular data? [0.0]
木をベースとしたモデルが中規模データの最先端のままであることを示す。木系モデルとニューラルネットワーク(NN)の異なる帰納バイアスに関する実証的研究を行う。
論文参考訳（メタデータ） (2022-07-18T08:36:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。