論文の概要: Scaling TabPFN: Sketching and Feature Selection for Tabular Prior-Data
Fitted Networks
- arxiv url: http://arxiv.org/abs/2311.10609v1
- Date: Fri, 17 Nov 2023 16:04:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-20 14:07:44.862970
- Title: Scaling TabPFN: Sketching and Feature Selection for Tabular Prior-Data
Fitted Networks
- Title(参考訳): scale tabpfn: 表型事前データ対応ネットワークのためのスケッチと特徴選択
- Authors: Benjamin Feuer, Chinmay Hegde, Niv Cohen
- Abstract要約: タブラル分類は伝統的に教師付きアルゴリズムに依存しており、トレーニングデータを用いて予測モデルのパラメータを推定する。
近年、TabPFNのようなPFN(Presideed Data Fitted Networks)は、コンテキスト内の表データの分類に成功している。
このようなモデルは非常に有望であるが、実際のデータに適用可能であるのは計算規模が限られているためである。
- 参考スコア(独自算出の注目度): 31.82225213006849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular classification has traditionally relied on supervised algorithms,
which estimate the parameters of a prediction model using its training data.
Recently, Prior-Data Fitted Networks (PFNs) such as TabPFN have successfully
learned to classify tabular data in-context: the model parameters are designed
to classify new samples based on labelled training samples given after the
model training. While such models show great promise, their applicability to
real-world data remains limited due to the computational scale needed. Here we
study the following question: given a pre-trained PFN for tabular data, what is
the best way to summarize the labelled training samples before feeding them to
the model? We conduct an initial investigation of sketching and
feature-selection methods for TabPFN, and note certain key differences between
it and conventionally fitted tabular models.
- Abstract(参考訳): タブラル分類は伝統的に教師付きアルゴリズムに依存しており、トレーニングデータを用いて予測モデルのパラメータを推定する。
最近、TabPFNのようなPFN(Preside-Data Fitted Networks)は、表形式のデータをコンテキスト内で分類することに成功した:モデルパラメータは、モデルトレーニング後に与えられたラベル付きトレーニングサンプルに基づいて、新しいサンプルを分類するように設計されている。
このようなモデルは非常に有望であるが、実際のデータへの適用性は計算規模によって制限されている。
表形式のデータに対して事前訓練されたPFNを与えられた場合、モデルに入力する前にラベル付きトレーニングサンプルをまとめるのに最適な方法は何か?
本研究では,TabPFNのスケッチ作成手法と特徴選択手法を最初に検討し,従来の表形式モデルとの大きな違いに注意する。
関連論文リスト
- A Data-Centric Perspective on Evaluating Machine Learning Models for Tabular Data [9.57464542357693]
実世界のモデリングパイプラインは、しばしばデータセット固有の前処理と特徴工学を必要とするため、モデル中心の評価は偏りがあることを実証する。
Kaggleコンペティションから10の関連するデータセットを選択し、データセット毎に専門家レベルの前処理パイプラインを実装します。
データセット固有の機能エンジニアリングの後、モデルランキングは大幅に変化し、性能差が減少し、モデル選択の重要性が低下する。
論文 参考訳(メタデータ) (2024-07-02T09:54:39Z) - TabSketchFM: Sketch-based Tabular Representation Learning for Data Discovery over Data Lakes [25.169832192255956]
データレイク上のデータ発見のためのニューラルネットワークタブモデルであるTabFMを提案する。
我々は、結合可能、結合可能、およびサブセットテーブルペアを特定するための事前訓練されたモデルを微調整する。
その結果,最先端技術と比較して,検索におけるF1スコアの大幅な改善が示された。
論文 参考訳(メタデータ) (2024-06-28T17:28:53Z) - Tokenize features, enhancing tables: the FT-TABPFN model for tabular classification [13.481699494376809]
FT-TabPFNはTabPFNの拡張版で、分類機能をよりよく扱うための新しい機能トークン化レイヤを含んでいる。
私たちの完全なソースコードは、コミュニティの利用と開発に利用可能です。
論文 参考訳(メタデータ) (2024-06-11T02:13:46Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - PTab: Using the Pre-trained Language Model for Modeling Tabular Data [5.791972449406902]
近年の研究では、ニューラルネットワークモデルがタブラルデータの文脈表現の学習に有効であることが示されている。
本稿では,事前学習言語モデルを用いて,タブラルデータをモデル化する新しいフレームワークPTabを提案する。
提案手法は,最先端のベースラインに比べて,教師付き設定における平均AUCスコアが向上した。
論文 参考訳(メタデータ) (2022-09-15T08:58:42Z) - Measuring the Effect of Training Data on Deep Learning Predictions via
Randomized Experiments [5.625056584412003]
本研究では,ディープラーニングモデルに対するトレーニングデータポイントの寄与度を推定するアルゴリズムを開発した。
提案アルゴリズムは,トレーニングデータのサブセットにデータポイントを追加することにより,期待値(平均値)の限界効果を測定する量であるAMEを推定する。
論文 参考訳(メタデータ) (2022-06-20T21:27:18Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - Explanation-Guided Training for Cross-Domain Few-Shot Classification [96.12873073444091]
クロスドメイン・ショット分類タスク(CD-FSC)は、データセットで表されるドメインをまたいで一般化する要件と、少数ショット分類を組み合わせたものである。
既存のFSCモデルに対する新しいトレーニング手法を提案する。
説明誘導学習はモデル一般化を効果的に改善することを示す。
論文 参考訳(メタデータ) (2020-07-17T07:28:08Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。