論文の概要: TabH2O: A Unified Foundation Model for Tabular Prediction
- arxiv url: http://arxiv.org/abs/2605.18383v1
- Date: Mon, 18 May 2026 13:27:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.632197
- Title: TabH2O: A Unified Foundation Model for Tabular Prediction
- Title(参考訳): TabH2O: 語彙予測のための統一基盤モデル
- Authors: Pascal Pfeiffer, Dmitry Gordeev, Mathias Müller, Laura Fink, Joan Salvà Soler, Mark Landry, Branden Murray, Marcos V. Conde, Sri Satish Ambati,
- Abstract要約: 本研究では,テキスト内学習による1つの前方パスの分類と回帰を行うモデルであるTabH2Oを提案する。
我々はTALENTベンチマークでTabH2O v1(29.2Mパラメータ)を評価し、6つの評価手法のうち平均2.55のランクを達成した。
- 参考スコア(独自算出の注目度): 12.882141870947706
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present TabH2O, a foundation model for tabular data that performs classification and regression in a single forward pass via in-context learning. TabH2O builds on the TabICL architecture with several key modifications: (1) unified training, a single model handles both classification and regression via a dual-head architecture, eliminating the need for separate models and reducing total pretraining cost; (2) single-stage pretraining, training stability improvements (bounded scalable softmax, inter-stage normalization, learnable residual scaling, logit soft-capping) eliminate the need for multi-stage curriculum learning, enabling training with full-length sequences from the start; and (3) noise-aware pretraining, synthetic datasets include explicit noise dimensions to teach the model robustness to irrelevant features. We evaluate TabH2O v1 (29.2M parameters) on the TALENT benchmark (300 datasets), where it achieves an average rank of 2.55 out of 6 evaluated methods, outperforming tuned CatBoost (4.07), H2O AutoML (4.18), and LightGBM (5.08), competitive with TabPFN v2.6 (2.74), and behind TabICL v2 (2.12), while placing in the top-3 on 81% of the testing datasets across classification and regression tasks.
- Abstract(参考訳): 本研究では,テキスト内学習による1つのフォワードパスの分類と回帰を行う表データの基盤モデルであるTabH2Oを提案する。
TabH2OはTabICLアーキテクチャにいくつかの重要な変更を加えて構築されている:(1)統合トレーニング、単一モデルは二重ヘッドアーキテクチャによる分類と回帰の両方を処理し、分離モデルの必要性を排除し、総事前訓練コストを削減し、(2)単一ステージ事前訓練、トレーニング安定性の改善(有界なソフトマックス、段階間正規化、学習可能な残留スケーリング、ロジットソフトキャッピング)により、マルチステージのカリキュラム学習の必要性を排除し、初めから完全長のシーケンスでトレーニングを可能にする。
我々はTALENTベンチマーク(300データセット)でTabH2O v1(29.2Mパラメータ)を評価し、評価された6つのメソッドのうち平均2.55のランクを達成し、チューニングされたCatBoost(4.07)、H2O AutoML(4.18)、LightGBM(5.08)、TabPFN v2.6(2.74)、TabICL v2(2.12)と競合するTabPFN v2.6(2.12)に勝り、分類と回帰タスクでテストデータセットの上位3位にランクインした。
関連論文リスト
- TabPFN-3: Technical Report [76.55249061301969]
TabPFN-3はTabPFN上に構築され、1Mのトレーニング行を持つデータセットに最先端のパフォーマンスを拡大し、トレーニングと推論時間を大幅に短縮する。
TabPFN-3は、我々の以前の合成データのみに制限され、表の予測のフロンティアを劇的に押し上げます。
当社のAPIが提供するTabPFN-3-Plus(Thinking)では,TabArena上で200Elo以上の非TabPFNモデルに対して,これを活用しています。
論文 参考訳(メタデータ) (2026-05-13T18:01:43Z) - Prior-Aligned Data Cleaning for Tabular Foundation Models [0.261072980439312]
Tabular Foundation Models (TFMs) は、合成データ生成プロセスによるメタラーニングによって、小さなデータセットに対して最先端のゼロショット精度を達成する。
コンテキスト内学習機構は、およそクリーンな入力、欠落値、外れ値、実世界のデータの重複を仮定し、精度と信頼性の校正の両方を同時に劣化させる事前ミスマッチを生成する。
論文 参考訳(メタデータ) (2026-04-28T02:56:17Z) - TabICLv2: A better, faster, scalable, and open tabular foundation model [18.594859017648346]
3つの柱上に構築された回帰と分類のための新しい最先端基盤モデルであるTabICLv2を紹介する。
Tabiclv2は、50GBのGPUメモリ下での百万規模のデータセットを効果的に一般化し、RealTabPFN-2.5よりも著しく高速である。
論文 参考訳(メタデータ) (2026-02-11T18:51:02Z) - F2LLM Technical Report: Matching SOTA Embedding Performance with 6 Million Open-Source Data [19.088644745246373]
F2LLMは,0.6B,1.7B,4Bの3種類の最先端埋め込みモデルである。
F2LLMは、オープンソースの非合成データセットからキュレートされた600万のクエリドキュメント陰性に関する基礎モデルから直接微調整される。
MTEBの英語リーダーボードでは、F2LLM-4Bは約4Bパラメーターと7番目のモデルで2位、F2LLM-1.7Bは1B-2Bサイズ範囲で1位である。
論文 参考訳(メタデータ) (2025-10-02T17:58:49Z) - Approximating Language Model Training Data from Weights [70.08614275061689]
モデル重みからデータ近似の問題を定式化し、いくつかのベースラインとメトリクスを提案する。
そこで我々は,大規模公開テキストコーパスから最高のマッチングデータを選択する勾配に基づく手法を開発した。
真のトレーニングデータがない場合でも、我々の方法では、公開Webドキュメントの小さなサブセットを見つけることができる。
論文 参考訳(メタデータ) (2025-06-18T15:26:43Z) - TabICL: A Tabular Foundation Model for In-Context Learning on Large Data [15.08819125687632]
最大60Kサンプルの合成データセットを事前学習した表層ベースモデルであるTabICLを導入する。
TALENTベンチマークから200を越える分類データセットのうち、TabICLはTabPFNv2と同等であり、体系的に高速(最大10倍)である。
10K以上のサンプルを持つ53のデータセットで、TabICLはTabPFNv2とCatBoostを上回り、大規模データに対するICLの可能性を示している。
論文 参考訳(メタデータ) (2025-02-08T13:25:04Z) - Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [68.94373533768501]
我々は、知識保持をモデル化し、そのコーパスから事実情報を記憶するための事前学習言語モデルの能力を示し、学習前にそれを推定する原則的手法を導入する。
本稿では,知識周波数,知識特異度,モデルサイズを統合し,クローズドブック質問応答(QA)の精度を予測する情報理論予測器である,サイズ依存型相互情報(SMI)を提案する。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - Tangent Model Composition for Ensembling and Continual Fine-tuning [69.92177580782929]
タンジェントモデル合成(Tangent Model composition, TMC)は、事前訓練された点を中心に微調整されたコンポーネントモデルを独立に結合する手法である。
TMCの精度は4.2%向上し、非線形微調整モデルの精度は4.2%向上した。
論文 参考訳(メタデータ) (2023-07-16T17:45:33Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。