論文の概要: Scaling TabPFN: Sketching and Feature Selection for Tabular Prior-Data
Fitted Networks
- arxiv url: http://arxiv.org/abs/2311.10609v1
- Date: Fri, 17 Nov 2023 16:04:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-20 14:07:44.862970
- Title: Scaling TabPFN: Sketching and Feature Selection for Tabular Prior-Data
Fitted Networks
- Title(参考訳): scale tabpfn: 表型事前データ対応ネットワークのためのスケッチと特徴選択
- Authors: Benjamin Feuer, Chinmay Hegde, Niv Cohen
- Abstract要約: タブラル分類は伝統的に教師付きアルゴリズムに依存しており、トレーニングデータを用いて予測モデルのパラメータを推定する。
近年、TabPFNのようなPFN(Presideed Data Fitted Networks)は、コンテキスト内の表データの分類に成功している。
このようなモデルは非常に有望であるが、実際のデータに適用可能であるのは計算規模が限られているためである。
- 参考スコア(独自算出の注目度): 31.82225213006849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular classification has traditionally relied on supervised algorithms,
which estimate the parameters of a prediction model using its training data.
Recently, Prior-Data Fitted Networks (PFNs) such as TabPFN have successfully
learned to classify tabular data in-context: the model parameters are designed
to classify new samples based on labelled training samples given after the
model training. While such models show great promise, their applicability to
real-world data remains limited due to the computational scale needed. Here we
study the following question: given a pre-trained PFN for tabular data, what is
the best way to summarize the labelled training samples before feeding them to
the model? We conduct an initial investigation of sketching and
feature-selection methods for TabPFN, and note certain key differences between
it and conventionally fitted tabular models.
- Abstract(参考訳): タブラル分類は伝統的に教師付きアルゴリズムに依存しており、トレーニングデータを用いて予測モデルのパラメータを推定する。
最近、TabPFNのようなPFN(Preside-Data Fitted Networks)は、表形式のデータをコンテキスト内で分類することに成功した:モデルパラメータは、モデルトレーニング後に与えられたラベル付きトレーニングサンプルに基づいて、新しいサンプルを分類するように設計されている。
このようなモデルは非常に有望であるが、実際のデータへの適用性は計算規模によって制限されている。
表形式のデータに対して事前訓練されたPFNを与えられた場合、モデルに入力する前にラベル付きトレーニングサンプルをまとめるのに最適な方法は何か?
本研究では,TabPFNのスケッチ作成手法と特徴選択手法を最初に検討し,従来の表形式モデルとの大きな違いに注意する。
関連論文リスト
- TuneTables: Context Optimization for Scalable Prior-Data Fitted Networks [93.88484143421037]
我々は,事前データ対応ネットワーク(PFN)のコンテキスト最適化手法を開発した。
PFNは、事前学習とコンテキスト内学習を利用して、1つのフォワードパスで新しいタスクの強力なパフォーマンスを達成する。
我々は,大規模データセットをより小さな学習コンテキストに圧縮する新しいプロンプトチューニング戦略であるTuneTablesを提案する。
論文 参考訳(メタデータ) (2024-02-17T00:02:23Z) - TabRepo: A Large Scale Repository of Tabular Model Evaluations and its
AutoML Applications [11.173301960468175]
TabRepoは、モデル評価と予測の新しいデータセットである。
200データセットで評価された1206モデルの予測とメトリクスを含んでいる。
論文 参考訳(メタデータ) (2023-11-06T09:17:18Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Statistical Foundations of Prior-Data Fitted Networks [0.7614628596146599]
近年,機械学習の新しいパラダイムとしてPFNが提案されている。
本稿では,PFNの理論的基盤を確立し,その挙動を制御している統計的メカニズムを照らす。
論文 参考訳(メタデータ) (2023-05-18T16:34:21Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z) - PTab: Using the Pre-trained Language Model for Modeling Tabular Data [5.791972449406902]
近年の研究では、ニューラルネットワークモデルがタブラルデータの文脈表現の学習に有効であることが示されている。
本稿では,事前学習言語モデルを用いて,タブラルデータをモデル化する新しいフレームワークPTabを提案する。
提案手法は,最先端のベースラインに比べて,教師付き設定における平均AUCスコアが向上した。
論文 参考訳(メタデータ) (2022-09-15T08:58:42Z) - Measuring the Effect of Training Data on Deep Learning Predictions via
Randomized Experiments [5.625056584412003]
本研究では,ディープラーニングモデルに対するトレーニングデータポイントの寄与度を推定するアルゴリズムを開発した。
提案アルゴリズムは,トレーニングデータのサブセットにデータポイントを追加することにより,期待値(平均値)の限界効果を測定する量であるAMEを推定する。
論文 参考訳(メタデータ) (2022-06-20T21:27:18Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - Explanation-Guided Training for Cross-Domain Few-Shot Classification [96.12873073444091]
クロスドメイン・ショット分類タスク(CD-FSC)は、データセットで表されるドメインをまたいで一般化する要件と、少数ショット分類を組み合わせたものである。
既存のFSCモデルに対する新しいトレーニング手法を提案する。
説明誘導学習はモデル一般化を効果的に改善することを示す。
論文 参考訳(メタデータ) (2020-07-17T07:28:08Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。