論文の概要: AnyPredict: Foundation Model for Tabular Prediction
- arxiv url: http://arxiv.org/abs/2305.12081v1
- Date: Sat, 20 May 2023 03:37:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 00:57:29.991081
- Title: AnyPredict: Foundation Model for Tabular Prediction
- Title(参考訳): anypredict:表予測の基礎モデル
- Authors: Zifeng Wang and Chufan Gao and Cao Xiao and Jimeng Sun
- Abstract要約: ファンデーションモデルは、大量のデータに基づいて事前訓練され、多くのダウンストリームタスクでうまく機能する。
本稿では,表層予測基盤モデル(AnyPredict)の大規模トレーニングデータ構築手法を提案する。
- 参考スコア(独自算出の注目度): 62.40770007775155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models are pre-trained on massive data to perform well across many
downstream tasks. They have demonstrated significant success in natural
language processing and computer vision. Nonetheless, the use of such models in
tabular prediction tasks has been limited, with the main hurdles consisting of
(1) the lack of large-scale and diverse tabular datasets with standardized
labels and (2) the schema mismatch and predictive target heterogeneity across
domains.
This paper proposes a method for building training data at scale for tabular
prediction foundation models (AnyPredict) using both in-domain and a wide range
of out-domain datasets. The method uses a data engine that leverages large
language models (LLMs) to consolidate tabular samples to overcome the barrier
across tables with varying schema and align out-domain data with the target
task using a ``learn, annotate, and audit'' pipeline. The expanded training
data enables the pre-trained AnyPredict to support every tabular dataset in the
domain without fine-tuning, resulting in significant improvements over
supervised baselines: it reaches an average ranking of 1.57 and 1.00 on 7
patient outcome prediction datasets and 3 trial outcome prediction datasets,
respectively. In addition, AnyPredict exhibits impressive zero-shot
performances: it outperforms supervised XGBoost models by 8.9% and 17.2% on
average in two prediction tasks, respectively.
- Abstract(参考訳): ファンデーションモデルは、大量のデータに基づいて事前訓練され、多くの下流タスクでうまく機能する。
彼らは自然言語処理とコンピュータビジョンで大きな成功を収めた。
しかし,表層予測タスクにおけるそのようなモデルの使用は制限されており,(1)標準化されたラベル付き大規模かつ多様な表層データセットの欠如,(2)ドメイン間のスキーマミスマッチと予測的ターゲットの不均一性などが主なハードルとなっている。
本稿では,インドメインと広範囲のアウトドメインデータセットの両方を用いて,表型予測基礎モデル(anypredict)のための大規模トレーニングデータを構築する手法を提案する。
この手法では,大規模言語モデル(LLM)を活用するデータエンジンを使用して,テーブル間のバリアをさまざまなスキーマで克服し,‘learn, annotate, and audit’パイプラインを使用して対象タスクにドメイン外のデータをアライメントする。
拡張トレーニングデータにより、事前トレーニングされたanypredictは、微調整することなく、ドメイン内のすべての表型データセットをサポートすることができ、教師付きベースラインよりも大幅に改善される。
さらに、AnyPredictは印象的なゼロショット性能を示しており、2つの予測タスクでそれぞれ平均8.9%と17.2%の教師付きXGBoostモデルを上回っている。
関連論文リスト
- TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - AdapTable: Test-Time Adaptation for Tabular Data via Shift-Aware Uncertainty Calibrator and Label Distribution Handler [29.395855812763617]
我々は、ソースデータにアクセスすることなく、ターゲットデータに機械学習モデルを適用するためのフレームワークであるAdapTableを提案する。
AdapTableは、(1)シフト認識不確実性校正器を用いてモデル予測を校正し、2)ターゲットラベル分布とラベル分布ハンドラとを一致させるようにこれらの予測を調整する。
我々の結果は、AdapTableが様々な現実世界の分散シフトを処理できることを示し、データセットで最大16%の改善を実現した。
論文 参考訳(メタデータ) (2024-07-15T15:02:53Z) - A Closer Look at Deep Learning on Tabular Data [52.50778536274327]
タブラルデータは、機械学習の様々な領域で広く使われている。
Deep Neural Network(DNN)ベースの手法は、ツリーベースに匹敵する有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-07-01T04:24:07Z) - Large Scale Transfer Learning for Tabular Data via Language Modeling [30.44823668480631]
グラフ予測のための言語モデルであるTabuLa-8Bを提案する。
4百万を超えるユニークなテーブルから210億行を超えるデータセットを使用します。
その結果,TabuLa-8Bはランダムな推測よりも15ポイント以上高い未確認のテーブル上でゼロショット精度を持つことがわかった。
論文 参考訳(メタデータ) (2024-06-17T18:58:20Z) - Cross-Table Pretraining towards a Universal Function Space for Heterogeneous Tabular Data [35.61663559675556]
クロスデータセット事前トレーニングは、様々な分野で顕著な成功を収めている。
本研究では,多目的な下流表予測タスクのためのクロステーブル事前学習型トランスであるXTFormerを提案する。
我々の手法は、XTFormerを事前訓練して、全ての潜在的な機能ターゲットマッピングを含む「メタ関数」空間を確立することである。
論文 参考訳(メタデータ) (2024-06-01T03:24:31Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z) - P-Transformer: A Prompt-based Multimodal Transformer Architecture For
Medical Tabular Data [2.6487114372147182]
本稿では,P-Transformerを提案する。
このフレームワークは、構造化データと非構造化データの両方から、多彩なモダリティを調和した言語意味空間に効率的にエンコードする。
P-Transformerは、RMSE/MAEで10.9%/11.0%、RMSE/MAEで0.5%/2.2%、BACC/AUROCで1.6%/0.8%、予測可能性でSOTA(State-of-the-art)ベースラインと比較して改善した。
論文 参考訳(メタデータ) (2023-03-30T14:25:44Z) - Learning Enhanced Representations for Tabular Data via Neighborhood
Propagation [24.485479610138498]
データインスタンスのクロスローパターンとクロスカラムパターンをモデル化するハイパーグラフを構築した。
次に、ターゲットデータインスタンス表現を強化するためにメッセージの伝搬を行います。
2つの重要なデータ予測タスクの実験は、提案したPETモデルの優越性を検証する。
論文 参考訳(メタデータ) (2022-06-14T04:24:52Z) - Unsupervised Pre-Training on Patient Population Graphs for Patient-Level
Predictions [48.02011627390706]
プレトレーニングは、コンピュータビジョン(CV)、自然言語処理(NLP)、医療画像など、機械学習のさまざまな分野で成功している。
本稿では,患者結果の予測のために,教師なし事前学習を異種マルチモーダルEHRデータに適用する。
提案手法は,人口レベルでのデータモデリングに有効であることがわかった。
論文 参考訳(メタデータ) (2022-03-23T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。