論文の概要: Fine-tuned In-Context Learning Transformers are Excellent Tabular Data Classifiers
- arxiv url: http://arxiv.org/abs/2405.13396v2
- Date: Thu, 23 Jan 2025 06:15:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 19:17:06.970577
- Title: Fine-tuned In-Context Learning Transformers are Excellent Tabular Data Classifiers
- Title(参考訳): 微調整型インコンテキスト学習変換器は優れたタブラリデータ分類器である
- Authors: Felix den Breejen, Sangmin Bae, Stephen Cha, Se-Young Yun,
- Abstract要約: 本研究では、TabPFNを微調整設定に拡張し、性能を大幅に向上させる。
また、微調整により、ICL変換器は複雑な決定境界を生成できることがわかった。
両方のデータセットジェネレータを組み合わせることで、優れた微調整性能とゼロショット性能を実現するICL変換器であるTabForestPFNを作成する。
- 参考スコア(独自算出の注目度): 22.33649426762373
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recently introduced TabPFN pretrains an In-Context Learning (ICL) transformer on synthetic data to perform tabular data classification. In this work, we extend TabPFN to the fine-tuning setting, resulting in a significant performance boost. We also discover that fine-tuning enables ICL-transformers to create complex decision boundaries, a property regular neural networks do not have. Based on this observation, we propose to pretrain ICL-transformers on a new forest dataset generator which creates datasets that are unrealistic, but have complex decision boundaries. TabForest, the ICL-transformer pretrained on this dataset generator, shows better fine-tuning performance when pretrained on more complex datasets. Additionally, TabForest outperforms TabPFN on some real-world datasets when fine-tuning, despite having lower zero-shot performance due to the unrealistic nature of the pretraining datasets. By combining both dataset generators, we create TabForestPFN, an ICL-transformer that achieves excellent fine-tuning performance and good zero-shot performance.
- Abstract(参考訳): 最近導入されたTabPFNは、合成データにICL(In-Context Learning)変換器を事前訓練して、表形式のデータ分類を行う。
本研究では、TabPFNを微調整設定に拡張し、性能を大幅に向上させる。
また、微調整によりICL変換器が複雑な決定境界を生成できることもわかりました。
そこで本研究では,非現実的だが複雑な決定境界を持つデータセットを生成する新しい森林データセットジェネレータ上でのICL変換器の事前学習を提案する。
このデータセットジェネレータで事前トレーニングされたICL変換器であるTabForestは、より複雑なデータセットで事前トレーニングされた場合には、より詳細なチューニングのパフォーマンスが向上する。
さらに、TabForestは、事前トレーニングデータセットの非現実的な性質のため、ゼロショットのパフォーマンスが低いにもかかわらず、微調整時にTabPFNよりもパフォーマンスが優れている。
両方のデータセットジェネレータを組み合わせることで、優れた微調整性能とゼロショット性能を実現するICL変換器であるTabForestPFNを作成する。
関連論文リスト
- Zero-shot Meta-learning for Tabular Prediction Tasks with Adversarially Pre-trained Transformer [2.1677183904102257]
本稿では、実世界のデータセットを事前学習することなく、表形式の予測タスクでゼロショットメタ学習を行うことのできるAdversarially Pre-trained Transformer(APT)を提案する。
APTは、異なる合成データセットで意図的にモデルに挑戦する敵対的な合成データエージェントで事前訓練されている。
筆者らのフレームワークは,データセットの特徴をフィルタリングすることなく,小さな分類タスクにおける最先端のパフォーマンスと一致していることを示す。
論文 参考訳(メタデータ) (2025-02-06T23:58:11Z) - Transformers Boost the Performance of Decision Trees on Tabular Data across Sample Sizes [135.68092471784516]
本稿では,大規模言語モデルと勾配ブースト決定木を融合させる,シンプルで軽量な手法を提案する。
融合法を LLM-Boost と PFN-Boost と命名した。
多数のベースラインとアンサンブルアルゴリズムに対して最先端の性能を示す。
論文 参考訳(メタデータ) (2025-02-04T19:30:41Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Table Transformers for Imputing Textual Attributes [15.823533688884105]
本稿では,TTITA(Imputing Textual Attributes)のためのテーブルトランスフォーマー(Table Transformer)という新しいエンドツーエンドアプローチを提案する。
提案手法は,リカレントニューラルネットワークやLlama2などのベースラインモデルよりも優れた性能を示す。
マルチタスク学習を組み込んで、不均一な列を同時にインプットし、テキストインプットの性能を高める。
論文 参考訳(メタデータ) (2024-08-04T19:54:12Z) - In-Context In-Context Learning with Transformer Neural Processes [50.57807892496024]
In-context In-context Learning pseudo-token TNP (ICICL-TNP) を開発した。
ICICL-TNPは、データポイントとデータセットのセットの両方を条件付けし、コンテキスト内での学習を可能にする。
複数の実験において,文脈内学習の重要性とICICL-TNPの有効性を実証した。
論文 参考訳(メタデータ) (2024-06-19T12:26:36Z) - TuneTables: Context Optimization for Scalable Prior-Data Fitted Networks [90.00817095558094]
事前データ対応ネットワーク(PFN)は、事前学習とコンテキスト内学習を利用して、1つのフォワードパスで新しいタスクの強力なパフォーマンスを実現する。
我々は、大規模なデータセットをより小さな学習コンテキストに圧縮するPFNのパラメータ効率の良い微調整戦略であるTuneTablesを紹介した。
我々は、TuneTablesを解釈可能性ツールとして使用することができ、公平性目標を最適化することでバイアスを軽減することができることを示した。
論文 参考訳(メタデータ) (2024-02-17T00:02:23Z) - In-Context Data Distillation with TabPFN [11.553950697974825]
In-context data distillation (ICD) は、TabPFNのコンテキストを最適化することでこれらの制約を効果的に除去する新しい手法である。
ICDにより、TabPFNは固定メモリ予算ではるかに大きなデータセットを処理でき、TabPFNの二次メモリの複雑さは向上するが、多くのチューニングステップのコストがかかる。
論文 参考訳(メタデータ) (2024-02-10T15:23:45Z) - TabMT: Generating tabular data with masked transformers [0.0]
Masked Transformerは生成モデルや分類器として驚くほど効果的です。
この研究は、多様なアプリケーションドメインのための合成データ生成におけるトランスフォーマーベースモデルの探索に寄与する。
論文 参考訳(メタデータ) (2023-12-11T03:28:11Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Exploring the Benefits of Differentially Private Pre-training and
Parameter-Efficient Fine-tuning for Table Transformers [56.00476706550681]
Table Transformer(TabTransformer)は最先端のニューラルネットワークモデルであり、差分プライバシ(DP)はデータのプライバシを確保する上で不可欠なコンポーネントである。
本稿では,これら2つの側面を組み合わせ,伝達学習のシナリオで組み合わせることのメリットについて考察する。
論文 参考訳(メタデータ) (2023-09-12T19:08:26Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z) - REaLTabFormer: Generating Realistic Relational and Tabular Data using
Transformers [0.0]
本稿では,合成データ生成モデルであるREaLTabFormer(Realistic and Tabular Transformer)を紹介する。
まず、自己回帰GPT-2モデルを用いて親テーブルを生成し、その後、シーケンス・ツー・シーケンスモデルを用いて親テーブル上で条件付けられた関係データセットを生成する。
実世界のデータセットを用いた実験では、REaLTabFormerはモデルベースラインよりもリレーショナル構造をよりよくキャプチャする。
論文 参考訳(メタデータ) (2023-02-04T00:32:50Z) - TabPFN: A Transformer That Solves Small Tabular Classification Problems
in a Second [48.87527918630822]
トレーニングされたトランスフォーマーであるTabPFNは、小さなデータセットの教師付き分類を1秒以内で行うことができる。
TabPFNはコンテキスト内学習(ICL)を行い、ラベル付きサンプルのシーケンスを使用して予測を行う。
提案手法は, 強化木よりも明らかに優れており, 230$times$ Speedupの複雑なAutoMLシステムと同等性能を示す。
論文 参考訳(メタデータ) (2022-07-05T07:17:43Z) - Deep Transformer Networks for Time Series Classification: The NPP Safety
Case [59.20947681019466]
時間依存nppシミュレーションデータをモデル化するために、教師付き学習方法でトランスフォーマと呼ばれる高度なテンポラルニューラルネットワークを使用する。
トランスはシーケンシャルデータの特性を学習し、テストデータセット上で約99%の分類精度で有望な性能が得られる。
論文 参考訳(メタデータ) (2021-04-09T14:26:25Z) - Tabular Transformers for Modeling Multivariate Time Series [30.717890753132824]
タブラルデータセットは、データサイエンスの応用においてユビキタスである。その重要性から、最先端のディープラーニングアルゴリズムを適用して、その可能性を完全に解き放つことは自然なようだ。
本稿では,その階層構造を活用可能なグラフ時系列を表すニューラルネットワークモデルを提案する。
学習した表現を不正検出と合成データ生成に使用する合成クレジットカードトランザクションデータセットと、学習したエンコーディングを大気汚染物質濃度を予測するための実際の公害データセットの2つのデータセットで実証する。
論文 参考訳(メタデータ) (2020-11-03T16:58:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。