論文の概要: TabRet: Pre-training Transformer-based Tabular Models for Unseen Columns
- arxiv url: http://arxiv.org/abs/2303.15747v1
- Date: Tue, 28 Mar 2023 06:03:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 16:23:21.067783
- Title: TabRet: Pre-training Transformer-based Tabular Models for Unseen Columns
- Title(参考訳): tabret: unseen列のためのトランスフォーマティブベースの表モデル
- Authors: Soma Onishi, Kenta Oono, and Kohei Hayashi
- Abstract要約: TabRetは、事前トレーニングで見えない列を含む下流タスクで動作するように設計されている。
実験では、TabRetを多数の公衆衛生調査で事前訓練し、医療における分類タスクを微調整した。
さらに,プレトレーニング中のカラムの再起動およびランダムシャッフル増大が,性能向上に寄与することを示した。
- 参考スコア(独自算出の注目度): 12.139158398361866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present \emph{TabRet}, a pre-trainable Transformer-based model for tabular
data. TabRet is designed to work on a downstream task that contains columns not
seen in pre-training. Unlike other methods, TabRet has an extra learning step
before fine-tuning called \emph{retokenizing}, which calibrates feature
embeddings based on the masked autoencoding loss. In experiments, we
pre-trained TabRet with a large collection of public health surveys and
fine-tuned it on classification tasks in healthcare, and TabRet achieved the
best AUC performance on four datasets. In addition, an ablation study shows
retokenizing and random shuffle augmentation of columns during pre-training
contributed to performance gains.
- Abstract(参考訳): 表データのためのトレーニング済みトランスフォーマーモデルである \emph{TabRet} を提示する。
TabRetは、事前トレーニングで見えない列を含む下流タスクで動作するように設計されている。
他の方法とは異なり、TabRetは‘emph{retokenizing}’と呼ばれる微調整の前に余分な学習ステップを持ち、マスク付き自動エンコーディング損失に基づいて機能の埋め込みを校正する。
実験では,公衆衛生調査を多数収集したタブレットを事前学習し,医療における分類タスクを微調整し,4つのデータセットで最高のauc性能を得た。
さらに,プレトレーニング中のカラムの再起動およびランダムシャッフル増大が,性能向上に寄与することを示した。
関連論文リスト
- TabDPT: Scaling Tabular Foundation Models [20.00390825519329]
実データによる性能向上と一般化の方法を示す。
本モデルでは,CC18(分類)およびCTR23(回帰)ベンチマークの最先端性能を実現する。
TabDPTはまた、モデルのサイズと利用可能なデータの量の両方が増加するにつれて、強力なスケーリングを示す。
論文 参考訳(メタデータ) (2024-10-23T18:00:00Z) - LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - Tokenize features, enhancing tables: the FT-TABPFN model for tabular classification [13.481699494376809]
FT-TabPFNはTabPFNの拡張版で、分類機能をよりよく扱うための新しい機能トークン化レイヤを含んでいる。
私たちの完全なソースコードは、コミュニティの利用と開発に利用可能です。
論文 参考訳(メタデータ) (2024-06-11T02:13:46Z) - TabMDA: Tabular Manifold Data Augmentation for Any Classifier using Transformers with In-context Subsetting [23.461204546005387]
TabMDAは、表データの多様体データ拡張のための新しい方法である。
これは、TabPFNのような事前訓練されたインコンテキストモデルを利用して、データを埋め込みスペースにマッピングする。
我々は,TabMDAを5つの標準分類器上で評価し,各種データセット間での大幅な性能向上を観察した。
論文 参考訳(メタデータ) (2024-06-03T21:51:13Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - UniTabE: A Universal Pretraining Protocol for Tabular Foundation Model
in Data Science [16.384705926693073]
本研究は,データサイエンスにおける表上での予測を容易にするために,事前学習方法論の能力を拡張することを目的とする。
テーブルを一様に処理するために設計されたUniTabEは、特定のテーブル構造によって課される制約を無視する。
プレトレーニングフェーズを実装するため,Kaggleプラットフォームから正確に収集した約13Bサンプルからなる拡張データセットをキュレートした。
論文 参考訳(メタデータ) (2023-07-18T13:28:31Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z) - XTab: Cross-table Pretraining for Tabular Transformers [29.419276738753968]
XTabは、さまざまなドメインのデータセット上の表型トランスフォーマーのクロステーブル事前トレーニングのためのフレームワークである。
XTabは、複数の表型変換器の一般化性、学習速度、性能を一貫して向上させることを示す。
回帰、二分法、多クラス分類といった様々なタスクにおいて、最先端の表層深層学習モデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-05-10T12:17:52Z) - A Memory Transformer Network for Incremental Learning [64.0410375349852]
本研究では,モデルが学習する時間とともに,新しいデータクラスが観察される学習環境であるクラスインクリメンタルラーニングについて検討する。
素直な問題定式化にもかかわらず、クラス増分学習への分類モデルの素直な適用は、これまで見られたクラスの「破滅的な忘れ込み」をもたらす。
これは、過去のデータのサブセットをメモリバンクに保存し、将来のタスクをトレーニングする際の忘れの防止にそれを活用することで、破滅的な忘れの問題を克服するものだ。
論文 参考訳(メタデータ) (2022-10-10T08:27:28Z) - TabPFN: A Transformer That Solves Small Tabular Classification Problems
in a Second [48.87527918630822]
トレーニングされたトランスフォーマーであるTabPFNは、小さなデータセットの教師付き分類を1秒以内で行うことができる。
TabPFNはコンテキスト内学習(ICL)を行い、ラベル付きサンプルのシーケンスを使用して予測を行う。
提案手法は, 強化木よりも明らかに優れており, 230$times$ Speedupの複雑なAutoMLシステムと同等性能を示す。
論文 参考訳(メタデータ) (2022-07-05T07:17:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。