論文の概要: Robust Tabular Foundation Models
- arxiv url: http://arxiv.org/abs/2512.03307v1
- Date: Tue, 02 Dec 2025 23:40:39 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:14:42.548689
- Title: Robust Tabular Foundation Models
- Title(参考訳): ロバストタブラル基礎モデル
- Authors: Matthew Peroni, Franck Le, Vadim Sheinin,
- Abstract要約: 重要な発見は、TFMは完全に合成データセット上で事前訓練可能であることである。
TFM性能と最高の達成可能な性能の差から得られる最適性ギャップ尺度を導入する。
これらの結果は、合成データのみを用いて、ターゲットとなる敵の訓練とTFMの微調整のための有望な新しいデータセットを浮き彫りにした。
- 参考スコア(独自算出の注目度): 0.7539295827164078
- License:
- Abstract: The development of tabular foundation models (TFMs) has accelerated in recent years, showing strong potential to outperform traditional ML methods for structured data. A key finding is that TFMs can be pretrained entirely on synthetic datasets, opening opportunities to design data generators that encourage desirable model properties. Prior work has mainly focused on crafting high-quality priors over generators to improve overall pretraining performance. Our insight is that parameterizing the generator distribution enables an adversarial robustness perspective: during training, we can adapt the generator to emphasize datasets that are particularly challenging for the model. We formalize this by introducing an optimality gap measure, given by the difference between TFM performance and the best achievable performance as estimated by strong baselines such as XGBoost, CatBoost, and Random Forests. Building on this idea, we propose Robust Tabular Foundation Models (RTFM), a model-agnostic adversarial training framework. Applied to the TabPFN V2 classifier, RTFM improves benchmark performance, with up to a 6% increase in mean normalized AUC over the original TabPFN and other baseline algorithms, while requiring less than 100k additional synthetic datasets. These results highlight a promising new direction for targeted adversarial training and fine-tuning of TFMs using synthetic data alone.
- Abstract(参考訳): 近年,表層基盤モデル (TFMs) の開発が加速し,構造化データに対する従来のML手法を上回る可能性が高まっている。
重要な発見は、TFMを完全に合成データセットで事前訓練し、望ましいモデル特性を奨励するデータジェネレータを設計する機会を開くことである。
以前の作業は主に、全体の事前訓練性能を改善するために、ジェネレータよりも高品質な事前設計に重点を置いてきた。
私たちの洞察では、ジェネレータ分布のパラメータ化は、逆のロバストネスの観点を可能にします。
我々は,TFM性能と,XGBoost,CatBoost,Random Forestsなどの強力なベースラインから推定される最高の達成可能な性能の差から得られる最適性ギャップ尺度を導入することでこれを定式化する。
このアイデアに基づいて,モデルに依存しない逆行訓練フレームワークであるRobust Tabular Foundation Models (RTFM)を提案する。
TabPFN V2分類器に適用されたRTFMは、ベンチマーク性能を改善し、オリジナルのTabPFNや他のベースラインアルゴリズムよりも平均正規化AUCを6%増加させ、さらに100k以上の合成データセットを必要とする。
これらの結果は, 合成データのみを用いて, 対人訓練を目標とし, TFMの微調整を行う上で有望な新たな方向を示すものである。
関連論文リスト
- Mitra: Mixed Synthetic Priors for Enhancing Tabular Foundation Models [85.64873567417396]
実世界のデータに対して,その多様性,特異性,および性能のために選択された合成前駆体の硬化した混合物をトレーニングしたTFMであるMitraを紹介する。
Mitraは、TabPFNv2やTabICLのような最先端のTFMを、分類と回帰のベンチマークで一貫して上回っている。
論文 参考訳(メタデータ) (2025-10-24T07:15:06Z) - Estimating Time Series Foundation Model Transferability via In-Context Learning [74.65355820906355]
時系列基礎モデル(TSFM)は、大規模な事前訓練を通じて強力なゼロショット予測を提供する。
微調整は、公開データに制限のあるドメインのパフォーマンス向上に依然として不可欠である。
モデル選択をコンテキスト内学習問題として再キャストする転送可能性推定フレームワークであるTimeTicを紹介する。
論文 参考訳(メタデータ) (2025-09-28T07:07:13Z) - SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Less is More: Unlocking Specialization of Time Series Foundation Models via Structured Pruning [27.23328609888911]
時系列基礎モデル 広大なパラメータを事前訓練し、驚くべきゼロショット予測性能を達成する。
驚くべきことに、微調整後も、TSFMは、フルショットダウンストリームデータでトレーニングされた、より小さな、特殊なモデルよりも一貫してパフォーマンスを向上することはできない。
より関連性が高くコンパクトなパラメータ空間に焦点を合わせることにより、その後の微調整プロセスを正規化するための構造化プルーニング法を提案する。
論文 参考訳(メタデータ) (2025-05-29T07:33:49Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - TabDPT: Scaling Tabular Foundation Models on Real Data [20.00390825519329]
ICLに基づく検索と自己教師付き学習を組み合わせた基礎モデルの学習手法を提案する。
事前学習フェーズに実際のデータを組み込むことで、学習が大幅に速くなり、見当たらないデータへの一般化が向上することを示す。
得られたモデルであるTabDPTは回帰 (CTR23) と分類 (CC18) のベンチマークで最高の性能を達成する。
論文 参考訳(メタデータ) (2024-10-23T18:00:00Z) - AutoFT: Learning an Objective for Robust Fine-Tuning [60.641186718253735]
ファンデーションモデルは、微調整によって下流タスクに適応できるリッチな表現をエンコードする。
手作り正則化技術を用いた頑健な微調整への最近のアプローチ
我々は、堅牢な微調整のためのデータ駆動型アプローチであるAutoFTを提案する。
論文 参考訳(メタデータ) (2024-01-18T18:58:49Z) - GPT-FL: Generative Pre-trained Model-Assisted Federated Learning [40.522864349440674]
GPT-FLは、生成学習モデル支援フェデレーション学習フレームワークである。
モデルテスト精度、通信効率、クライアントサンプリング効率の点で、最先端のFL法を一貫して上回ります。
論文 参考訳(メタデータ) (2023-06-03T22:57:59Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。