論文の概要: Generalization Can Emerge in Tabular Foundation Models From a Single Table
- arxiv url: http://arxiv.org/abs/2511.09665v1
- Date: Fri, 14 Nov 2025 01:03:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.403355
- Title: Generalization Can Emerge in Tabular Foundation Models From a Single Table
- Title(参考訳): 一般化は単一のテーブルからタブラル基礎モデルを創出できる
- Authors: Junwei Ma, Nour Shaheen, Alex Labach, Amine Mhedhbi, Frank Hutter, Anthony L. Caterini, Valentin Thomas,
- Abstract要約: 簡単な自己教師型事前学習は、単体の実テーブル上で、異種ベンチマーク間で驚くほど強力な転送を実現できることを示す。
次に、ほとんどのTFMが共有する事前学習手順に接続し、データセットから構築できるEmphtaskの数と品質が、下流のパフォーマンスの鍵であることを示します。
- 参考スコア(独自算出の注目度): 38.07740881271672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep tabular modelling increasingly relies on in-context learning where, during inference, a model receives a set of $(x,y)$ pairs as context and predicts labels for new inputs without weight updates. We challenge the prevailing view that broad generalization here requires pre-training on large synthetic corpora (e.g., TabPFN priors) or a large collection of real data (e.g., TabDPT training datasets), discovering that a relatively small amount of data suffices for generalization. We find that simple self-supervised pre-training on just a \emph{single} real table can produce surprisingly strong transfer across heterogeneous benchmarks. By systematically pre-training and evaluating on many diverse datasets, we analyze what aspects of the data are most important for building a Tabular Foundation Model (TFM) generalizing across domains. We then connect this to the pre-training procedure shared by most TFMs and show that the number and quality of \emph{tasks} one can construct from a dataset is key to downstream performance.
- Abstract(参考訳): 深層表モデリングは、推論の間、モデルがコンテキストとして$(x,y)$ペアのセットを受け取り、重み更新なしで新しい入力のラベルを予測する、コンテキスト内学習にますます依存している。
ここでは、大規模な合成コーパス(例えば、TabPFNの事前学習)や大量の実データ(例えば、TabDPTのトレーニングデータセット)の事前学習が必要であり、比較的少量のデータが一般化するのに十分である、という一般的な見方に挑戦する。
単に \emph{single} 実テーブル上の単純な自己教師付き事前学習は、異種ベンチマーク間で驚くほど強い伝達をもたらす。
さまざまなデータセットを体系的に事前トレーニングし、評価することにより、ドメイン間で一般化されたタブラル基礎モデル(TFM)を構築する上で、データのどの側面が最も重要なのかを分析する。
次に、ほとんどのTFMが共有する事前トレーニング手順に接続し、データセットから構築できる \emph{tasks} の数と品質が、下流のパフォーマンスの鍵であることを示します。
関連論文リスト
- Mitra: Mixed Synthetic Priors for Enhancing Tabular Foundation Models [85.64873567417396]
実世界のデータに対して,その多様性,特異性,および性能のために選択された合成前駆体の硬化した混合物をトレーニングしたTFMであるMitraを紹介する。
Mitraは、TabPFNv2やTabICLのような最先端のTFMを、分類と回帰のベンチマークで一貫して上回っている。
論文 参考訳(メタデータ) (2025-10-24T07:15:06Z) - Multimodal Tabular Reasoning with Privileged Structured Information [67.40011423365712]
ブリッジインfOrmation (sc Turbo) を用いたタブウラー推論(TabUlar Reasoning)について紹介する。
sc TurboはDeepSeek-R1をベースにした構造対応の推論トレースジェネレータの恩恵を受ける。
sc Turboは、複数のデータセットで最先端のパフォーマンス(+7.2%対以前のSOTA)を達成する。
論文 参考訳(メタデータ) (2025-06-04T15:46:30Z) - Representation Learning for Tabular Data: A Comprehensive Survey [23.606506938919605]
行と列として構造化されたタブラルデータは、機械学習の分類と回帰アプリケーションにおいて最も一般的なデータタイプの一つである。
ディープニューラルネットワーク(DNN)は、最近、表現学習の能力を通じて有望な結果を実証した。
既存の手法を一般化能力に応じて3つの主要なカテゴリに分類する。
論文 参考訳(メタデータ) (2025-04-17T17:58:23Z) - TabDPT: Scaling Tabular Foundation Models on Real Data [20.00390825519329]
ICLに基づく検索と自己教師付き学習を組み合わせた基礎モデルの学習手法を提案する。
事前学習フェーズに実際のデータを組み込むことで、学習が大幅に速くなり、見当たらないデータへの一般化が向上することを示す。
得られたモデルであるTabDPTは回帰 (CTR23) と分類 (CC18) のベンチマークで最高の性能を達成する。
論文 参考訳(メタデータ) (2024-10-23T18:00:00Z) - PORTAL: Scalable Tabular Foundation Models via Content-Specific Tokenization [7.036380633387952]
我々は、クリーニングや前処理を必要とせずに、様々なデータモダリティを処理するフレームワーク、 Portal(Pretraining One-Row-at-a-Time for All tabLes)を紹介します。
オンラインにコンパイルされたデータセットで効果的に事前トレーニングされ、複雑な分類と回帰タスクに関する最先端の手法に適合するように微調整される。
論文 参考訳(メタデータ) (2024-10-17T13:05:44Z) - Rethinking Pre-Training in Tabular Data: A Neighborhood Embedding Perspective [71.45945607871715]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
中心となる考え方は、データインスタンスを共有機能空間に埋め込むことで、各インスタンスは、近隣の固定数とそのラベルまでの距離で表現される。
101データセットの大規模な実験は、微調整の有無にかかわらず、分類タスクと回帰タスクの両方においてTabPTMの有効性を確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Retrieval-Based Transformer for Table Augmentation [14.460363647772745]
我々は、自動データラングリングに対する新しいアプローチを導入する。
本研究の目的は,行数や列数,データ計算などのテーブル拡張タスクに対処することである。
我々のモデルは、教師付き統計手法と最先端のトランスフォーマーベースモデルの両方より一貫して、実質的に優れています。
論文 参考訳(メタデータ) (2023-06-20T18:51:21Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。