論文の概要: Pocket Foundation Models: Distilling TFMs into CPU-Ready Gradient-Boosted Trees
- arxiv url: http://arxiv.org/abs/2605.18654v1
- Date: Mon, 18 May 2026 17:00:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:50.115627
- Title: Pocket Foundation Models: Distilling TFMs into CPU-Ready Gradient-Boosted Trees
- Title(参考訳): ポケットファンデーションモデル: TFMをCPU対応のグラディエントブーストツリーに蒸留する
- Authors: Aditya Tanna, Nassim Bouarour, Mohamed Bouadi, Vinay kumar Sankarapu, Pratinav Seth,
- Abstract要約: TabICLv2をXGBoostに蒸留すると、1.9ミリ秒で0.882マクロ平均AUC(教師AUCの96.5%)が得られる。
教師と学生のペア間の38倍から860倍のスピードアップで、統計的に有意なエッジが調整されたCatBoostの上に表示される。
- 参考スコア(独自算出の注目度): 3.6863200438303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A fraud scorer needs to answer in under 2 ms. The best tabular foundation models (TFMs) take 151-1,275 ms on GPU. We close this gap by distilling the TFM offline into an XGBoost or CatBoost student that runs natively on CPU. The central obstacle is specific to in-context learning (ICL) teachers: they leak labels when scoring their own training set, so the soft targets collapse to near-one-hot vectors with no inter-class structure left to distill. Stratified out-of-fold (OOF) teacher labeling prevents this. Across 153 classification datasets drawn from TALENT, OpenML-CC18, TabZilla, and TabArena, distilling TabICLv2 into XGBoost gives 0.882 macro-mean AUC (96.5% of teacher AUC) at 1.9 ms on CPU, a 38x to 860x speedup across teacher-student pairs with a statistically significant edge over a tuned CatBoost baseline (Wilcoxon p = 0.0008; 51% win rate). Four further findings: teacher rank transfers exactly to student rank; gains concentrate on low-dimensional data (< 21 features: +0.011 over CatBoost vs. >21 features: +0.001); multi-teacher averaging helps MLP students (+0.006, p = 0.003) but adds less than 0.001 for tree students; and on high-dimensional tasks where the teacher itself trails CatBoost, distillation makes things worse rather than better. The full pipeline is open-sourced as part of the TabTune library.
- Abstract(参考訳): 最高の表形式の基礎モデル(TFM)はGPUで151~1,275ミリ秒かかる。
TFMをオフラインでXGBoostまたはCatBoostの学生に蒸留することで、このギャップを埋めます。
中心的な障害は、インコンテキスト学習(ICL)の教師に特有であり、彼ら自身のトレーニングセットのスコア付け時にラベルをリークするため、軟質なターゲットは、蒸留のためにクラス間構造が残っていないほぼ1ホットベクターに崩壊する。
階層化されたアウト・オブ・フォールド(OOF)教師のラベリングがこれを防ぐ。
TALENT、OpenML-CC18、TabZilla、TabArenaから抽出された153の分類データセットで、TabICLv2をXGBoostに蒸留すると、CPU上の1.9msで0.882のマクロ平均AUC(教師AUCの96.5%)が得られる。
さらに4つの発見として,教師のランクが生徒のランクに正確に移行し,低次元データに集中する(<21特徴:+0.011 over CatBoost vs. >21特徴:+0.001),マルチテスタ平均化はMLP学生を支援する(+0.006, p = 0.003)が,0.001未満のツリー学生,そして教師自身がCatBoostを追尾する高次元タスクでは,蒸留がより悪くなる。
完全なパイプラインはTabTuneライブラリの一部としてオープンソース化されている。
関連論文リスト
- PLD: A Choice-Theoretic List-Wise Knowledge Distillation [12.52282972328311]
リストのランク付けを重み付けした "Plackett-Luce Distillation (PLD)" を導入する。
PLDは多様なアーキテクチャや蒸留目標に対して一貫した利益を達成する。
論文 参考訳(メタデータ) (2025-06-14T15:31:54Z) - TinyCLIP: CLIP Distillation via Affinity Mimicking and Weight
Inheritance [97.01406871579525]
大規模言語画像事前学習モデルのための新しいクロスモーダル蒸留法TinyCLIPを提案する。
また、TinyCLIPは、トレーニング済みのCLIP ViT-B/32のサイズを50%削減し、ゼロショット性能を同等に維持できることを示した。
YFCC-15MでトレーニングしたTinyCLIP ViT-8M/16は、ImageNetで41.1%という印象的なゼロショットトップ1の精度を達成した。
論文 参考訳(メタデータ) (2023-09-21T17:59:53Z) - Improving Knowledge Distillation via Regularizing Feature Norm and
Direction [16.98806338782858]
知識蒸留(KD)は、大きな訓練されたモデル(例えば教師)を利用して、同じタスクのために同じデータセット上で小さな学生モデルを訓練する。
教師の特徴を知識として扱うこと、知識蒸留訓練の学生は、その特徴を教師の特徴と整合させることによって、例えば、ロジット間のKL偏差を最小化し、中間特徴間のL2距離を最小化する。
教師に対する生徒の特徴の整合性の向上は教師の知識をよりよく蒸留すると考えるのは自然なことだが、単にこの整合性を強制することは生徒のパフォーマンスに直接寄与しない。
論文 参考訳(メタデータ) (2023-05-26T15:05:19Z) - DTG-SSOD: Dense Teacher Guidance for Semi-Supervised Object Detection [42.75316070378037]
半教師対象検出(SSOD)において平均教師(MT)方式が広く採用されている
本稿では,Inverse NMS Clustering (INC) と Rank Matching (RM) を提案する。
論文 参考訳(メタデータ) (2022-07-12T13:54:54Z) - TabPFN: A Transformer That Solves Small Tabular Classification Problems
in a Second [48.87527918630822]
トレーニングされたトランスフォーマーであるTabPFNは、小さなデータセットの教師付き分類を1秒以内で行うことができる。
TabPFNはコンテキスト内学習(ICL)を行い、ラベル付きサンプルのシーケンスを使用して予測を行う。
提案手法は, 強化木よりも明らかに優れており, 230$times$ Speedupの複雑なAutoMLシステムと同等性能を示す。
論文 参考訳(メタデータ) (2022-07-05T07:17:43Z) - Graph Consistency based Mean-Teaching for Unsupervised Domain Adaptive
Person Re-Identification [54.58165777717885]
本論文では,教師ネットワークと学生ネットワークの間にGCC(Graph Consistency Constraint)を構築するためのGCMT(Graph Consistency Based Mean-Teaching)手法を提案する。
マーケット-1501、デュークMTMCreID、MSMT17の3つのデータセットの実験により、提案されたGCMTは最先端の手法よりも明確なマージンで優れていることが示された。
論文 参考訳(メタデータ) (2021-05-11T04:09:49Z) - Distilling a Powerful Student Model via Online Knowledge Distillation [158.68873654990895]
既存のオンライン知識蒸留アプローチは、最高のパフォーマンスを持つ学生を採用するか、より良い全体的なパフォーマンスのためのアンサンブルモデルを構築する。
本稿では,機能融合と自己蒸留という2つの要素からなるFFSDと呼ばれる新しいオンライン知識蒸留法を提案する。
論文 参考訳(メタデータ) (2021-03-26T13:54:24Z) - Progressive Network Grafting for Few-Shot Knowledge Distillation [60.38608462158474]
本稿では, 数ショットデータに適した二段蒸留方式を提案する。
最初のステップでは、生徒のブロックを1つずつ教師に移植し、移植されたブロックのパラメータと他の教師ブロックのパラメータを学習します。
CIFAR10, CIFAR100, ILSVRC-2012で, わずか数サンプルで, 満足のいく結果が得られることを実証した。
論文 参考訳(メタデータ) (2020-12-09T08:34:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。