論文の概要: TabICLv2: A better, faster, scalable, and open tabular foundation model
- arxiv url: http://arxiv.org/abs/2602.11139v1
- Date: Wed, 11 Feb 2026 18:51:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.339791
- Title: TabICLv2: A better, faster, scalable, and open tabular foundation model
- Title(参考訳): TabICLv2: より良く、より速く、スケーラブルで、オープンな表層基盤モデル
- Authors: Jingang Qu, David Holzmüller, Gaël Varoquaux, Marine Le Morvan,
- Abstract要約: 3つの柱上に構築された回帰と分類のための新しい最先端基盤モデルであるTabICLv2を紹介する。
Tabiclv2は、50GBのGPUメモリ下での百万規模のデータセットを効果的に一般化し、RealTabPFN-2.5よりも著しく高速である。
- 参考スコア(独自算出の注目度): 18.594859017648346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular foundation models, such as TabPFNv2 and TabICL, have recently dethroned gradient-boosted trees at the top of predictive benchmarks, demonstrating the value of in-context learning for tabular data. We introduce TabICLv2, a new state-of-the-art foundation model for regression and classification built on three pillars: (1) a novel synthetic data generation engine designed for high pretraining diversity; (2) various architectural innovations, including a new scalable softmax in attention improving generalization to larger datasets without prohibitive long-sequence pretraining; and (3) optimized pretraining protocols, notably replacing AdamW with the Muon optimizer. On the TabArena and TALENT benchmarks, TabICLv2 without any tuning surpasses the performance of the current state of the art, RealTabPFN-2.5 (hyperparameter-tuned, ensembled, and fine-tuned on real data). With only moderate pretraining compute, TabICLv2 generalizes effectively to million-scale datasets under 50GB GPU memory while being markedly faster than RealTabPFN-2.5. We provide extensive ablation studies to quantify these contributions and commit to open research by first releasing inference code and model weights at https://github.com/soda-inria/tabicl, with synthetic data engine and pretraining code to follow.
- Abstract(参考訳): TabPFNv2やTabICLのようなタブラル基礎モデルは、最近、予測ベンチマークの最上位で勾配木を退避させ、表形式のデータに対するコンテキスト内学習の価値を実証した。
本研究では,(1)事前学習の多様性を高めるために設計された新しい合成データ生成エンジンであるTabICLv2,(2)長期学習を禁止せずに大規模データセットへの一般化を向上する新しい拡張性ソフトマックス,(3)AdamWをMuonオプティマイザに置き換えた最適化事前学習プロトコルを紹介する。
TabArena と TALENT のベンチマークでは、チューニングなしの TabICLv2 は現在の最先端の RealTabPFN-2.5 (ハイパーパラメータ、アンサンブル、および実データによる微調整) のパフォーマンスを上回っている。
適度な事前トレーニング計算のみを使用して、TabICLv2は50GBのGPUメモリ下での百万規模のデータセットを効果的に一般化し、RealTabPFN-2.5よりも著しく高速である。
我々はこれらの貢献を定量化し、まず推論コードとモデルウェイトをhttps://github.com/soda-inria/tabiclで公開することでオープンな研究にコミットする。
関連論文リスト
- End-to-End Compression for Tabular Foundation Models [20.50130399990578]
本稿では,学習データセットを潜在空間で圧縮するエンドツーエンド圧縮モデルTACOを提案する。
提案手法は推論時間で最大94倍高速で、最大97%のメモリを消費するTabArenaベンチマークでテストした。
論文 参考訳(メタデータ) (2026-02-05T13:33:58Z) - TabPFN-2.5: Advancing the State of the Art in Tabular Foundation Models [76.52858476275865]
TabPFN-2.5は5万のデータポイントと2,000の機能を持つデータセット用に構築されている。
チューニングされたツリーベースモデルとAutoGluon 1.4の精度を大幅に上回った。
生産用として,TabPFN-2.5を小型または木製アンサンブルに変換する新しい蒸留エンジンを導入する。
論文 参考訳(メタデータ) (2025-11-11T18:57:15Z) - nanoTabPFN: A Lightweight and Educational Reimplementation of TabPFN [78.62756717376563]
NanoTabPFNはTabPFN v2アーキテクチャとそれに対応するトレーニングループの軽量実装である。
1つのGPUでの事前トレーニングから1分以内に、従来の機械学習ベースラインに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-05T16:52:51Z) - Chunked TabPFN: Exact Training-Free In-Context Learning for Long-Context Tabular Data [2.2682391370097794]
本稿では,TabPFNフレームワーク内での注目度を計算するためのタイルブロック戦略を提案する。
この設計は標準のGPUセットアップと互換性がある。
標準TabArenaベンチマークにおいて,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2025-08-30T02:57:01Z) - A Closer Look at TabPFN v2: Understanding Its Strengths and Extending Its Capabilities [51.08999772842298]
Tabular Prior-data Fitted Network v2 (TabPFN v2)は、さまざまな下流データセット間で、前例のないコンテキスト内学習性能を達成する。
本研究では,TabPFN v2が属性トークンをランダムに入力しても属性関係を推測可能であることを示す。
我々はTabPFN v2の制限がテスト時間分割・コンテキスト戦略によって対処できることを実証した。
論文 参考訳(メタデータ) (2025-02-24T17:38:42Z) - TabDPT: Scaling Tabular Foundation Models on Real Data [20.00390825519329]
ICLに基づく検索と自己教師付き学習を組み合わせた基礎モデルの学習手法を提案する。
事前学習フェーズに実際のデータを組み込むことで、学習が大幅に速くなり、見当たらないデータへの一般化が向上することを示す。
得られたモデルであるTabDPTは回帰 (CTR23) と分類 (CC18) のベンチマークで最高の性能を達成する。
論文 参考訳(メタデータ) (2024-10-23T18:00:00Z) - TuneTables: Context Optimization for Scalable Prior-Data Fitted Networks [90.00817095558094]
事前データ対応ネットワーク(PFN)は、事前学習とコンテキスト内学習を利用して、1つのフォワードパスで新しいタスクの強力なパフォーマンスを実現する。
我々は、大規模なデータセットをより小さな学習コンテキストに圧縮するPFNのパラメータ効率の良い微調整戦略であるTuneTablesを紹介した。
我々は、TuneTablesを解釈可能性ツールとして使用することができ、公平性目標を最適化することでバイアスを軽減することができることを示した。
論文 参考訳(メタデータ) (2024-02-17T00:02:23Z) - In-Context Data Distillation with TabPFN [11.553950697974825]
In-context data distillation (ICD) は、TabPFNのコンテキストを最適化することでこれらの制約を効果的に除去する新しい手法である。
ICDにより、TabPFNは固定メモリ予算ではるかに大きなデータセットを処理でき、TabPFNの二次メモリの複雑さは向上するが、多くのチューニングステップのコストがかかる。
論文 参考訳(メタデータ) (2024-02-10T15:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。