論文の概要: TabDistill: Distilling Transformers into Neural Nets for Few-Shot Tabular Classification
- arxiv url: http://arxiv.org/abs/2511.05704v1
- Date: Fri, 07 Nov 2025 20:46:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.535877
- Title: TabDistill: Distilling Transformers into Neural Nets for Few-Shot Tabular Classification
- Title(参考訳): TabDistill: 短いショットタブラリ分類のためのニューラルネットへの変換器の蒸留
- Authors: Pasan Dissanayake, Sanghamitra Dutta,
- Abstract要約: 複雑なトランスフォーマーモデルにおける事前学習された知識を、より単純なニューラルネットワークに抽出する新しい戦略であるTabDistillを導入する。
我々のフレームワークは両方の世界の長所を生んでいる: パラメータ効率でありながら、限られたトレーニングデータでうまく機能する。
- 参考スコア(独自算出の注目度): 11.402275466952135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based models have shown promising performance on tabular data compared to their classical counterparts such as neural networks and Gradient Boosted Decision Trees (GBDTs) in scenarios with limited training data. They utilize their pre-trained knowledge to adapt to new domains, achieving commendable performance with only a few training examples, also called the few-shot regime. However, the performance gain in the few-shot regime comes at the expense of significantly increased complexity and number of parameters. To circumvent this trade-off, we introduce TabDistill, a new strategy to distill the pre-trained knowledge in complex transformer-based models into simpler neural networks for effectively classifying tabular data. Our framework yields the best of both worlds: being parameter-efficient while performing well with limited training data. The distilled neural networks surpass classical baselines such as regular neural networks, XGBoost and logistic regression under equal training data, and in some cases, even the original transformer-based models that they were distilled from.
- Abstract(参考訳): トランスフォーマーベースのモデルでは、トレーニングデータに制限のあるシナリオでは、ニューラルネットワークやGBDT(Gradient Boosted Decision Trees)といった従来のモデルと比較して、テーブル形式のデータのパフォーマンスが期待できる。
彼らは、訓練済みの知識を利用して新しいドメインに適応し、いくつかのトレーニング例(" few-shot regime"とも呼ばれる)で賞賛できるパフォーマンスを達成する。
しかし、数ショット体制におけるパフォーマンス向上は、複雑さとパラメータの数を大幅に増加させるのを犠牲にしている。
このトレードオフを回避するために、複雑なトランスフォーマーモデルにおける事前学習された知識をより単純なニューラルネットワークに抽出し、表形式のデータを効果的に分類する新しい戦略であるTabDistillを導入する。
我々のフレームワークは両方の世界の長所を生んでいる: パラメータ効率でありながら、限られたトレーニングデータでうまく機能する。
蒸留されたニューラルネットワークは、通常のニューラルネットワーク、XGBoost、対数回帰などの古典的ベースラインを等訓練データで超越し、場合によっては、蒸留された元のトランスフォーマーベースモデルでさえも超越する。
関連論文リスト
- Elastic ViTs from Pretrained Models without Retraining [74.5386166956142]
ビジョンファウンデーションモデルは優れたパフォーマンスを達成するが、事前決定されたサイズの限られたセットでしか利用できない。
本稿では, プルーニングされた視覚変換器のためのシングルショットネットワーク近似であるSnapViTを紹介する。
提案手法は,進化的アルゴリズムを用いて近似した勾配情報とクロスネットワーク構造相関を効率的に結合する。
論文 参考訳(メタデータ) (2025-10-20T16:15:03Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Learning to Continually Learn with the Bayesian Principle [36.75558255534538]
本研究では、ニューラルネットワークの強力な表現力と、忘れることに対する単純な統計モデルの堅牢性を組み合わせたメタラーニングパラダイムを採用する。
ニューラルネットワークは継続学習中に固定されているため、破滅的な忘れ物から保護されている。
論文 参考訳(メタデータ) (2024-05-29T04:53:31Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Enhancing Actuarial Non-Life Pricing Models via Transformers [0.0]
我々は、ニューラルネットワークとローカルGLMnetを組み合わせた基盤を構築し、これらのモデルを特徴トークン変換器を介して強化する。
提案手法は,特定の一般化線形モデルの利点を保ちながら,ベンチマークモデルよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2023-11-10T12:06:23Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Continual Learning with Transformers for Image Classification [12.028617058465333]
コンピュータビジョンでは、ニューラルネットワークモデルは、過去に何を学んだかを忘れずに、新しい概念を継続的に学習する。
本研究では,適応型適応器の蒸留法 (ADA) を開発した。
本手法は,モデルを再学習することなく,優れた予測性能を維持することを実証的に示す。
論文 参考訳(メタデータ) (2022-06-28T15:30:10Z) - Reconstructing Training Data from Trained Neural Networks [42.60217236418818]
いくつかのケースでは、トレーニングデータのかなりの部分が、実際にトレーニングされたニューラルネットワーク分類器のパラメータから再構成可能であることを示す。
本稿では,勾配に基づくニューラルネットワークの学習における暗黙バイアスに関する最近の理論的結果から,新たな再構成手法を提案する。
論文 参考訳(メタデータ) (2022-06-15T18:35:16Z) - Churn Reduction via Distillation [54.5952282395487]
本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。
次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-04T18:03:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。