論文の概要: Real-TabPFN: Improving Tabular Foundation Models via Continued Pre-training With Real-World Data
- arxiv url: http://arxiv.org/abs/2507.03971v1
- Date: Sat, 05 Jul 2025 09:39:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.956975
- Title: Real-TabPFN: Improving Tabular Foundation Models via Continued Pre-training With Real-World Data
- Title(参考訳): Real-TabPFN: 実世界データによる継続事前学習による語彙基礎モデルの改善
- Authors: Anurag Garg, Muhammad Ali, Noah Hollmann, Lennart Purucker, Samuel Müller, Frank Hutter,
- Abstract要約: この性能は、目標とする継続事前学習フェーズによって著しく向上できることを示す。
我々は、大規模な実世界のデータセットの小さなキュレートされたコレクションを継続的な事前学習に活用することで、より優れた予測的下流の精度が得られることを実証した。
得られたモデルであるReal-TabPFNは、OpenML AutoML Benchmarkから29のデータセットに対して、大幅なパフォーマンス向上を実現しています。
- 参考スコア(独自算出の注目度): 38.08600450054975
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Foundation models for tabular data, like TabPFN, achieve strong performance on small datasets when pre-trained solely on synthetic data. We show that this performance can be significantly boosted by a targeted continued pre-training phase. Specifically, we demonstrate that leveraging a small, curated collection of large, real-world datasets for continued pre-training yields superior downstream predictive accuracy compared to using broader, potentially noisier corpora like CommonCrawl or GitTables. Our resulting model, Real-TabPFN, achieves substantial performance gains on 29 datasets from the OpenML AutoML Benchmark.
- Abstract(参考訳): TabPFNのような表データの基盤モデルは、合成データのみに事前トレーニングされた場合、小さなデータセット上で強力なパフォーマンスを達成する。
この性能は、目標とする継続事前学習フェーズによって著しく向上できることを示す。
具体的には、大規模でキュレートされたデータセットの小さなコレクションを継続的な事前トレーニングに活用することで、CommonCrawlやGitTablesのようなより広範でノイズの多いコーパスを使用する場合と比較して、下流での予測精度が向上することを示した。
得られたモデルであるReal-TabPFNは、OpenML AutoML Benchmarkから29のデータセットに対して、大幅なパフォーマンス向上を実現しています。
関連論文リスト
- Prior-Fitted Networks Scale to Larger Datasets When Treated as Weak Learners [82.72552644267724]
BoostPFNは、大規模なデータセットでトレーニングサンプルと同じサイズで、標準的なPFNよりもパフォーマンスがよい。
高い性能はPFNのトレーニング前サイズの最大50倍まで維持される。
論文 参考訳(メタデータ) (2025-03-03T07:31:40Z) - Zero-shot Meta-learning for Tabular Prediction Tasks with Adversarially Pre-trained Transformer [2.1677183904102257]
本稿では、実世界のデータセットを事前学習することなく、表形式の予測タスクでゼロショットメタ学習を行うことのできるAdversarially Pre-trained Transformer(APT)を提案する。
APTは、異なる合成データセットで意図的にモデルに挑戦する敵対的な合成データエージェントで事前訓練されている。
筆者らのフレームワークは,データセットの特徴をフィルタリングすることなく,小さな分類タスクにおける最先端のパフォーマンスと一致していることを示す。
論文 参考訳(メタデータ) (2025-02-06T23:58:11Z) - TabDPT: Scaling Tabular Foundation Models [20.00390825519329]
実データによる性能向上と一般化の方法を示す。
本モデルでは,CC18(分類)およびCTR23(回帰)ベンチマークの最先端性能を実現する。
TabDPTはまた、モデルのサイズと利用可能なデータの量の両方が増加するにつれて、強力なスケーリングを示す。
論文 参考訳(メタデータ) (2024-10-23T18:00:00Z) - Fine-tuned In-Context Learning Transformers are Excellent Tabular Data Classifiers [22.33649426762373]
本研究では、TabPFNを微調整設定に拡張し、性能を大幅に向上させる。
また、微調整により、ICL変換器は複雑な決定境界を生成できることがわかった。
両方のデータセットジェネレータを組み合わせることで、優れた微調整性能とゼロショット性能を実現するICL変換器であるTabForestPFNを作成する。
論文 参考訳(メタデータ) (2024-05-22T07:13:55Z) - TuneTables: Context Optimization for Scalable Prior-Data Fitted Networks [90.00817095558094]
事前データ対応ネットワーク(PFN)は、事前学習とコンテキスト内学習を利用して、1つのフォワードパスで新しいタスクの強力なパフォーマンスを実現する。
我々は、大規模なデータセットをより小さな学習コンテキストに圧縮するPFNのパラメータ効率の良い微調整戦略であるTuneTablesを紹介した。
我々は、TuneTablesを解釈可能性ツールとして使用することができ、公平性目標を最適化することでバイアスを軽減することができることを示した。
論文 参考訳(メタデータ) (2024-02-17T00:02:23Z) - TabPFN: A Transformer That Solves Small Tabular Classification Problems
in a Second [48.87527918630822]
トレーニングされたトランスフォーマーであるTabPFNは、小さなデータセットの教師付き分類を1秒以内で行うことができる。
TabPFNはコンテキスト内学習(ICL)を行い、ラベル付きサンプルのシーケンスを使用して予測を行う。
提案手法は, 強化木よりも明らかに優れており, 230$times$ Speedupの複雑なAutoMLシステムと同等性能を示す。
論文 参考訳(メタデータ) (2022-07-05T07:17:43Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。