論文の概要: MaskTab: Scalable Masked Tabular Pretraining with Scaling Laws and Distillation for Industrial Classification
- arxiv url: http://arxiv.org/abs/2605.11408v1
- Date: Tue, 12 May 2026 01:56:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.521469
- Title: MaskTab: Scalable Masked Tabular Pretraining with Scaling Laws and Distillation for Industrial Classification
- Title(参考訳): MaskTab:スケーリング法則と工業分類のための蒸留による拡張性マスケッドタブラルプレトレーニング
- Authors: Bo Zheng, Yudong Chen, Zihua Xiong, Shuai Fang, Peidong He, Yang Yang, Sheng Guo,
- Abstract要約: MaskTabは、専用の学習可能なトークンを通じて、欠落した値をエンコードする。
工業規模のベンチマークでは、AUCは+5.04%、KSは+8.28%に達する。
- 参考スコア(独自算出の注目度): 15.322364163389393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular data forms the backbone of high-stakes decision systems in finance, healthcare, and beyond. Yet industrial tabular datasets are inherently difficult: high-dimensional, riddled with missing entries, and rarely labeled at scale. While foundation models have revolutionized vision and language, tabular learning still leans on handcrafted features and lacks a general self-supervised framework. We present MaskTab, a unified pre-training framework designed specifically for industrial-scale tabular data. MaskTab encodes missing values via dedicated learnable tokens, enabling the model to distinguish structural absence from random dropout. It jointly optimizes a hybrid supervised pre-training scheme--utilizing a twin-path architecture to reconcile masked reconstruction with task-specific supervision--and an MoE-augmented loss that adaptively routes features through specialized subnetworks. On industrial-scale benchmarks, it achieves +5.04% AUC and +8.28% KS over prior art under rigorous scaling. Moreover, its representations distill effectively into lightweight models, yielding +2.55% AUC and +4.85% KS under strict latency and interpretability constraints, while improving robustness to distribution shifts. Our work demonstrates that tabular data admits a foundation-model treatment--when its structural idiosyncrasies are respected.
- Abstract(参考訳): タブラルデータは、金融、医療などにおける高額な意思決定システムのバックボーンを形成する。
しかし、工業用表形式のデータセットは本質的には困難であり、高次元で、欠落したエントリが取り除かれ、大規模にラベル付けされることはめったにない。
基礎モデルはビジョンと言語に革命をもたらしたが、表層学習は依然として手作りの機能に依存しており、一般的な自己管理フレームワークが欠如している。
本稿では,産業規模の表形式データを対象とした統合事前学習フレームワークMaskTabを提案する。
MaskTabは、専用の学習可能なトークンを通じて欠落した値をエンコードし、モデルがランダムなドロップアウトと構造的欠如を区別することを可能にする。
ツインパスアーキテクチャを利用して、マスク付きの再構築をタスク固有の監督と調整し、特別なサブネットワークを通じて機能を適応的にルーティングするMoE強化された損失を共同で最適化する。
工業規模のベンチマークでは、厳格なスケーリングの下で先行技術よりも+5.04%のAUCと+8.28%のKSを達成した。
さらに、その表現は、厳密なレイテンシと解釈可能性の制約の下で、+2.55% AUCと+4.85% KSを出力し、分散シフトに対する堅牢性を改善しながら、効果的に軽量なモデルに蒸留する。
我々の研究は、構造的慣用性が尊重されるとき、表層データに基礎モデル処理が認められることを示した。
関連論文リスト
- Tabular Foundation Model for Generative Modelling [34.3599321018728]
生成モデリングは、教師付き予測対象のみを最適化するのではなく、与えられたデータモダリティに対して堅牢で全体論的表現学習を必要とする。
既存の表形式のファンデーションジェネレータは、合成データ品質において、強力なデータセット固有のジェネレータと一貫して一致していない。
事前訓練されたtextbfTabular textbffoundational textbfRepresentation for textbfGEneration 上に構築した TabFORGE を紹介する。
論文 参考訳(メタデータ) (2026-05-10T08:52:28Z) - Fine-tuning MLLMs Without Forgetting Is Easier Than You Think [72.59321247529975]
分布内および分布外画像およびテキスト入力のモデル性能を評価するための2x2実験フレームワークを設計する。
その結果、トレーニング可能なパラメータの数を制限したり、低学習率を採用するなど、適切な正規化が、アウト・オブ・ディストリビューション・イメージを扱う際の忘れを効果的に防止できることが示唆された。
我々は、このことをタスク固有のオーバーフィッティングとみなし、データハイブリッドトレーニング戦略を導入することでこの問題に対処する。
論文 参考訳(メタデータ) (2026-03-15T17:16:19Z) - UTOPIA: Unlearnable Tabular Data via Decoupled Shortcut Embedding [29.54720707082683]
非学習不可能な例(UE)は、プライベートビジョンデータにおける不正なモデルトレーニングを防止するための実践的なメカニズムとして現れている。
汚染スペクトルがクリーンなセマンティックスペクトルを超過すると、証明不能が実現可能であることを示す。
提案するUnlearnable Tabular Data via DecOuPled Shortcut EmbeddIng (UTOPIA)は,特徴冗長性を利用して最適化を2つのチャネルに分離する。
論文 参考訳(メタデータ) (2026-02-07T04:44:49Z) - FMBench: Adaptive Large Language Model Output Formatting [49.52930069696333]
適応型マークダウン出力フォーマットのベンチマークであるFMBenchを提案する。
2つのモデルファミリーの実験は、SFTが一貫してセマンティックアライメントを改善していることを示している。
結果はまた、意味的目的と構造的目的の間に固有のトレードオフを明らかにします。
論文 参考訳(メタデータ) (2026-02-06T04:42:06Z) - Mitra: Mixed Synthetic Priors for Enhancing Tabular Foundation Models [85.64873567417396]
実世界のデータに対して,その多様性,特異性,および性能のために選択された合成前駆体の硬化した混合物をトレーニングしたTFMであるMitraを紹介する。
Mitraは、TabPFNv2やTabICLのような最先端のTFMを、分類と回帰のベンチマークで一貫して上回っている。
論文 参考訳(メタデータ) (2025-10-24T07:15:06Z) - TabINR: An Implicit Neural Representation Framework for Tabular Data Imputation [0.6407815281667869]
本稿では,テーブルをニューラルネットワークとしてモデル化する自動デコーダベースのImplicit Neural RepresentationフレームワークであるTabINRを紹介する。
我々は、現実世界の12のデータセットと複数の欠落メカニズムにまたがって、我々のフレームワークを評価した。
論文 参考訳(メタデータ) (2025-10-01T17:24:35Z) - A Closer Look at TabPFN v2: Understanding Its Strengths and Extending Its Capabilities [51.08999772842298]
Tabular Prior-data Fitted Network v2 (TabPFN v2)は、さまざまな下流データセット間で、前例のないコンテキスト内学習性能を達成する。
本研究では,TabPFN v2が属性トークンをランダムに入力しても属性関係を推測可能であることを示す。
我々はTabPFN v2の制限がテスト時間分割・コンテキスト戦略によって対処できることを実証した。
論文 参考訳(メタデータ) (2025-02-24T17:38:42Z) - TabDPT: Scaling Tabular Foundation Models on Real Data [20.00390825519329]
ICLに基づく検索と自己教師付き学習を組み合わせた基礎モデルの学習手法を提案する。
事前学習フェーズに実際のデータを組み込むことで、学習が大幅に速くなり、見当たらないデータへの一般化が向上することを示す。
得られたモデルであるTabDPTは回帰 (CTR23) と分類 (CC18) のベンチマークで最高の性能を達成する。
論文 参考訳(メタデータ) (2024-10-23T18:00:00Z) - SCARF: Self-Supervised Contrastive Learning using Random Feature
Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。
SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-29T08:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。