論文の概要: Towards Pretraining Text Encoders for TabPFN
- arxiv url: http://arxiv.org/abs/2606.04876v1
- Date: Wed, 03 Jun 2026 13:38:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.783059
- Title: Towards Pretraining Text Encoders for TabPFN
- Title(参考訳): TabPFN用テキストエンコーダの事前学習に向けて
- Authors: Mustafa Tajjar, Alexander Pfefferle, Lennart Purucker, Frank Hutter,
- Abstract要約: TabPFNのようなタブラル基礎モデルは、数値データと分類データを持つデータセット上で強力なパフォーマンスを達成する。
TabPFN Text Adapter (text-to-TFM token projection) を導入する。
この設計はPCAのボトルネックを排除し、TabPFNの数値的な強みを保ち、エンドツーエンドのテキストタブラルパイプラインよりも訓練が効率的である。
- 参考スコア(独自算出の注目度): 78.5840707720685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tabular foundation models, such as TabPFN, achieve strong performance on tabular datasets with numerical and categorical data, but do not natively handle high-cardinality text features. Standard pipelines, therefore, embed text with a language model and compress the resulting vectors with PCA into a small number of scalar features before inputting them into TabPFN. This creates an information bottleneck: most embedding dimensions are discarded, and the compressed representation must then be expanded again by TabPFN's feature encoder. End-to-end alternatives can avoid PCA, but they require large amounts of pretraining data containing text cells and usually perform subpar compared to tabular foundation models that were pretrained on large amounts of synthetic data. Inspired by modality-alignment approaches like LLaVA (vision-to-LLM token projection) and TableGPT-style systems (table-to-LLM token projection), we introduce the TabPFN Text Adapter (text-to-TFM token projection). We freeze both the sentence encoder and TabPFN, and train only a lightweight adapter that maps text embeddings into a short sequence of tokens in TabPFN's embedding space. This design removes the PCA bottleneck, preserves TabPFN's numerical strengths, and is more efficient to train than end-to-end text-tabular pipelines.
- Abstract(参考訳): TabPFNのようなタブラル基礎モデルは、数値的および分類的なデータを持つ表付きデータセット上で強力な性能を達成するが、高カード性テキストの特徴をネイティブに扱わない。
したがって、標準パイプラインは、言語モデルにテキストを埋め込んで、結果のベクトルをPCAで圧縮し、TabPFNに入力する前に少数のスカラー機能に組み込む。
ほとんどの埋め込み次元は破棄され、圧縮された表現はTabPFNの機能エンコーダによって再び拡張されなければならない。
エンド・ツー・エンドの代替手段はPCAを回避できるが、テキストセルを含む大量の事前学習データを必要とし、通常大量の合成データで事前訓練された表形式の基礎モデルと比較してサブパーを実行する。
LLaVA(vision-to-LLMトークンプロジェクション)やTableGPT(table-to-LLMトークンプロジェクション)のようなモダリティアライメントアプローチに着想を得て,TabPFN Text Adapter(text-to-TFMトークンプロジェクション)を導入する。
文エンコーダとTabPFNの両方を凍結し、テキスト埋め込みをTabPFNの埋め込み空間内の短いトークン列にマッピングする軽量アダプタのみを訓練する。
この設計はPCAのボトルネックを排除し、TabPFNの数値的な強みを保ち、エンドツーエンドのテキストタブラルパイプラインよりも訓練が効率的である。
関連論文リスト
- nanoTabPFN: A Lightweight and Educational Reimplementation of TabPFN [78.62756717376563]
NanoTabPFNはTabPFN v2アーキテクチャとそれに対応するトレーニングループの軽量実装である。
1つのGPUでの事前トレーニングから1分以内に、従来の機械学習ベースラインに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-05T16:52:51Z) - Transformers Boost the Performance of Decision Trees on Tabular Data across Sample Sizes [135.68092471784516]
本稿では,大規模言語モデルと勾配ブースト決定木を融合させる,シンプルで軽量な手法を提案する。
融合法を LLM-Boost と PFN-Boost と命名した。
多数のベースラインとアンサンブルアルゴリズムに対して最先端の性能を示す。
論文 参考訳(メタデータ) (2025-02-04T19:30:41Z) - Tokenize features, enhancing tables: the FT-TABPFN model for tabular classification [13.481699494376809]
FT-TabPFNはTabPFNの拡張版で、分類機能をよりよく扱うための新しい機能トークン化レイヤを含んでいる。
私たちの完全なソースコードは、コミュニティの利用と開発に利用可能です。
論文 参考訳(メタデータ) (2024-06-11T02:13:46Z) - TuneTables: Context Optimization for Scalable Prior-Data Fitted Networks [90.00817095558094]
事前データ対応ネットワーク(PFN)は、事前学習とコンテキスト内学習を利用して、1つのフォワードパスで新しいタスクの強力なパフォーマンスを実現する。
我々は、大規模なデータセットをより小さな学習コンテキストに圧縮するPFNのパラメータ効率の良い微調整戦略であるTuneTablesを紹介した。
我々は、TuneTablesを解釈可能性ツールとして使用することができ、公平性目標を最適化することでバイアスを軽減することができることを示した。
論文 参考訳(メタデータ) (2024-02-17T00:02:23Z) - In-Context Data Distillation with TabPFN [11.553950697974825]
In-context data distillation (ICD) は、TabPFNのコンテキストを最適化することでこれらの制約を効果的に除去する新しい手法である。
ICDにより、TabPFNは固定メモリ予算ではるかに大きなデータセットを処理でき、TabPFNの二次メモリの複雑さは向上するが、多くのチューニングステップのコストがかかる。
論文 参考訳(メタデータ) (2024-02-10T15:23:45Z) - TabPFN: A Transformer That Solves Small Tabular Classification Problems
in a Second [48.87527918630822]
トレーニングされたトランスフォーマーであるTabPFNは、小さなデータセットの教師付き分類を1秒以内で行うことができる。
TabPFNはコンテキスト内学習(ICL)を行い、ラベル付きサンプルのシーケンスを使用して予測を行う。
提案手法は, 強化木よりも明らかに優れており, 230$times$ Speedupの複雑なAutoMLシステムと同等性能を示す。
論文 参考訳(メタデータ) (2022-07-05T07:17:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。