論文の概要: TabFlex: Scaling Tabular Learning to Millions with Linear Attention
- arxiv url: http://arxiv.org/abs/2506.05584v1
- Date: Thu, 05 Jun 2025 20:59:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.231378
- Title: TabFlex: Scaling Tabular Learning to Millions with Linear Attention
- Title(参考訳): TabFlex: 線形注意で数百万人にタブラリ学習を拡大
- Authors: Yuchen Zeng, Tuan Dinh, Wonjun Kang, Andreas C Mueller,
- Abstract要約: TabPFNのような最近の進歩は、小規模データセットでは優れているが、大規模で複雑なデータセットではスケールが困難である。
本研究は,線形アテンション機構を組み込むことで,大規模データセットに対するTabPFNの効率性とスケーラビリティを向上させる。
私たちのモデルであるTabFlexは、数千のフィーチャと数百のクラスを持つ表データセットを効率的に処理し、数百万のサンプルにシームレスにスケーリングします。
- 参考スコア(独自算出の注目度): 8.018661387739574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging the in-context learning (ICL) capability of Large Language Models (LLMs) for tabular classification has gained significant attention for its training-free adaptability across diverse datasets. Recent advancements, like TabPFN, excel in small-scale tabular datasets but struggle to scale for large and complex datasets. Our work enhances the efficiency and scalability of TabPFN for larger datasets by incorporating linear attention mechanisms as a scalable alternative to complexity-quadratic self-attention. Our model, TabFlex, efficiently handles tabular datasets with thousands of features and hundreds of classes, scaling seamlessly to millions of samples. For instance, TabFlex processes the poker-hand dataset with over a million samples in just 5 seconds. Our extensive evaluations demonstrate that TabFlex can achieve over a 2x speedup compared to TabPFN and a 1.5x speedup over XGBoost, outperforming 25 tested baselines in terms of efficiency across a diverse range of datasets. Furthermore, TabFlex remains highly effective on large-scale datasets, delivering strong performance with significantly reduced computational costs, especially when combined with data-efficient techniques such as dimensionality reduction and data sampling.
- Abstract(参考訳): 大規模言語モデル(LLM)の文脈内学習(ICL)機能を表型分類に活用することは、多様なデータセットにまたがるトレーニングフリー適応性に大きな注目を集めている。
TabPFNのような最近の進歩は、小規模の表形式のデータセットでは優れているが、大規模で複雑なデータセットではスケールが困難である。
我々の研究は、複雑四重項自己アテンションのスケーラブルな代替手段として線形アテンション機構を組み込むことにより、大規模データセットに対するTabPFNの効率性とスケーラビリティを向上させる。
私たちのモデルであるTabFlexは、数千のフィーチャと数百のクラスを持つ表データセットを効率的に処理し、数百万のサンプルにシームレスにスケーリングします。
たとえば、TabFlexはポーカーハンドのデータセットをわずか5秒で100万以上のサンプルで処理します。
大規模な評価では、TabFlexはTabPFNと比較して2倍のスピードアップを達成でき、XGBoostよりも1.5倍のスピードアップを達成できます。
さらに、TabFlexは大規模データセットに対して非常に効果的であり、特に次元削減やデータサンプリングといったデータ効率のよい手法と組み合わせた場合、計算コストを大幅に削減して強力なパフォーマンスを提供する。
関連論文リスト
- Prior-Fitted Networks Scale to Larger Datasets When Treated as Weak Learners [82.72552644267724]
BoostPFNは、大規模なデータセットでトレーニングサンプルと同じサイズで、標準的なPFNよりもパフォーマンスがよい。
高い性能はPFNのトレーニング前サイズの最大50倍まで維持される。
論文 参考訳(メタデータ) (2025-03-03T07:31:40Z) - A Closer Look at TabPFN v2: Strength, Limitation, and Extension [51.08999772842298]
Tabular Prior-data Fitted Network v2 (TabPFN v2)は、複数のデータセットにまたがる前例のないコンテキスト内学習の精度を達成する。
本稿では,300以上のデータセット上でTabPFN v2を評価し,中小規模タスクにおける例外的な一般化機能を確認する。
論文 参考訳(メタデータ) (2025-02-24T17:38:42Z) - TabICL: A Tabular Foundation Model for In-Context Learning on Large Data [15.08819125687632]
最大60Kサンプルの合成データセットを事前学習した表層ベースモデルであるTabICLを導入する。
TALENTベンチマークから200を越える分類データセットのうち、TabICLはTabPFNv2と同等であり、体系的に高速(最大10倍)である。
10K以上のサンプルを持つ53のデータセットで、TabICLはTabPFNv2とCatBoostを上回り、大規模データに対するICLの可能性を示している。
論文 参考訳(メタデータ) (2025-02-08T13:25:04Z) - Transformers Boost the Performance of Decision Trees on Tabular Data across Sample Sizes [135.68092471784516]
本稿では,大規模言語モデルと勾配ブースト決定木を融合させる,シンプルで軽量な手法を提案する。
融合法を LLM-Boost と PFN-Boost と命名した。
多数のベースラインとアンサンブルアルゴリズムに対して最先端の性能を示す。
論文 参考訳(メタデータ) (2025-02-04T19:30:41Z) - Swift Cross-Dataset Pruning: Enhancing Fine-Tuning Efficiency in Natural Language Understanding [2.379669478864599]
現在の微調整のためのクロスデータセットプルーニング技術は、しばしば計算に高価なサンプルランキングプロセスに依存している。
我々は,TF-IDF埋め込みと幾何中央値を用いたSwift Cross-Dataset Pruning (SCDP)を提案する。
6つの多様なデータセットに対する実験結果から,様々なタスクやスケールにまたがる手法の有効性が示された。
論文 参考訳(メタデータ) (2025-01-05T03:52:04Z) - Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models [64.28420991770382]
Data-Juicer 2.0は、テキスト、画像、ビデオ、オーディオのモダリティにまたがるデータ処理オペレーターがバックアップするデータ処理システムである。
データ分析、アノテーション、基礎モデルポストトレーニングなど、より重要なタスクをサポートする。
さまざまな研究分野やAlibaba Cloud PAIのような現実世界の製品で広く採用されている。
論文 参考訳(メタデータ) (2024-12-23T08:29:57Z) - A Survey on Deep Tabular Learning [0.0]
タブラルデータは、その不均一な性質と空間構造が欠如していることから、深層学習の独特な課題を提示する。
本調査では,早期完全接続ネットワーク(FCN)から,TabNet,SAINT,TabTranSELU,MambaNetといった先進アーキテクチャに至るまで,タブラルデータのディープラーニングモデルの進化を概観する。
論文 参考訳(メタデータ) (2024-10-15T20:08:08Z) - In-Context Data Distillation with TabPFN [11.553950697974825]
In-context data distillation (ICD) は、TabPFNのコンテキストを最適化することでこれらの制約を効果的に除去する新しい手法である。
ICDにより、TabPFNは固定メモリ予算ではるかに大きなデータセットを処理でき、TabPFNの二次メモリの複雑さは向上するが、多くのチューニングステップのコストがかかる。
論文 参考訳(メタデータ) (2024-02-10T15:23:45Z) - Rethinking Pre-Training in Tabular Data: A Neighborhood Embedding Perspective [71.45945607871715]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
中心となる考え方は、データインスタンスを共有機能空間に埋め込むことで、各インスタンスは、近隣の固定数とそのラベルまでの距離で表現される。
101データセットの大規模な実験は、微調整の有無にかかわらず、分類タスクと回帰タスクの両方においてTabPTMの有効性を確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。