論文の概要: OmniTabBench: Mapping the Empirical Frontiers of GBDTs, Neural Networks, and Foundation Models for Tabular Data at Scale
- arxiv url: http://arxiv.org/abs/2604.06814v1
- Date: Wed, 08 Apr 2026 08:31:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.426849
- Title: OmniTabBench: Mapping the Empirical Frontiers of GBDTs, Neural Networks, and Foundation Models for Tabular Data at Scale
- Title(参考訳): OmniTabBench: GBDT、ニューラルネットワーク、および大規模タブラルデータのための基礎モデルの実証的フロンティアをマッピングする
- Authors: Dihong Jiang, Ruoqi Cao, Zhiyuan Dang, Li Huang, Qingsong Zhang, Zhiyu Wang, Shihao Piao, Shenggao Zhu, Jianlong Chang, Zhouchen Lin, Qi Tian,
- Abstract要約: 私たちはこれまでで最大のベンチマークであるOmniTabBenchを紹介します。
我々は、OmniTabBench上で、すべてのモデルファミリーから最先端モデルの大規模な評価を行い、支配的な勝者がいないことを確認した。
- 参考スコア(独自算出の注目度): 82.32822441887886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While traditional tree-based ensemble methods have long dominated tabular tasks, deep neural networks and emerging foundation models have challenged this primacy, yet no consensus exists on a universally superior paradigm. Existing benchmarks typically contain fewer than 100 datasets, raising concerns about evaluation sufficiency and potential selection biases. To address these limitations, we introduce OmniTabBench, the largest tabular benchmark to date, comprising 3030 datasets spanning diverse tasks that are comprehensively collected from diverse sources and categorized by industry using large language models. We conduct an unprecedented large-scale empirical evaluation of state-of-the-art models from all model families on OmniTabBench, confirming the absence of a dominant winner. Furthermore, through a decoupled metafeature analysis, which examines individual properties such as dataset size, feature types, feature and target skewness/kurtosis, we elucidate conditions favoring specific model categories, providing clearer, more actionable guidance than prior compound-metric studies.
- Abstract(参考訳): 伝統的な木に基づくアンサンブル法は長年、表計算タスクを支配してきたが、ディープニューラルネットワークと新しい基盤モデルは、この優位性に挑戦してきたが、普遍的に優れたパラダイムに関するコンセンサスは存在しない。
既存のベンチマークは一般的に100未満のデータセットを含み、評価の十分性や潜在的な選択バイアスに関する懸念を提起する。
これらの制限に対処するため、我々はOmniTabBenchという、これまでで最大の表型ベンチマークを導入し、多様なソースから包括的に収集され、大きな言語モデルを使用して業界によって分類される、多様なタスクにまたがる3030のデータセットを構成した。
我々は、OmniTabBench上で、すべてのモデルファミリーから最先端モデルの大規模な評価を行い、支配的な勝者がいないことを確認した。
さらに, データセットサイズ, 特徴タイプ, 特徴および対象の歪/曲率などの個々の特性を解析する分離メタフューチャー解析により, 特定のモデルカテゴリを選好する条件を解明し, 従来よりも明確で, より実用的なガイダンスを提供する。
関連論文リスト
- U-Bench: A Comprehensive Understanding of U-Net through 100-Variant Benchmarking [13.41099918346476]
U-Netは、医療画像のセグメンテーションにおいて支配的なアーキテクチャであり、何千ものU字型の変種の開発に繋がった。
広く採用されているにもかかわらず、パフォーマンスとユーティリティを体系的に評価する包括的なベンチマークはいまだに存在しない。
U-Benchは、28のデータセットと10の画像モダリティにまたがる100のU-Net変異を評価する、最初の大規模で統計的に厳密なベンチマークである。
論文 参考訳(メタデータ) (2025-10-08T14:06:17Z) - Estimating Time Series Foundation Model Transferability via In-Context Learning [74.65355820906355]
時系列基礎モデル(TSFM)は、大規模な事前訓練を通じて強力なゼロショット予測を提供する。
微調整は、公開データに制限のあるドメインのパフォーマンス向上に依然として不可欠である。
モデル選択をコンテキスト内学習問題として再キャストする転送可能性推定フレームワークであるTimeTicを紹介する。
論文 参考訳(メタデータ) (2025-09-28T07:07:13Z) - LimiX: Unleashing Structured-Data Modeling Capability for Generalist Intelligence [61.46575527504109]
LimiX-16MとLimiX-2Mは、構造化されたデータを変数と欠落に対する共同分布として扱う。
サンプルサイズ,特徴次元,クラス数,カテゴリ間特徴比,欠落度,サンプル-特徴比の広い11種類の大規模構造化データベンチマークを対象としたLimiXモデルの評価を行った。
論文 参考訳(メタデータ) (2025-09-03T17:39:08Z) - MultiTab: A Comprehensive Benchmark Suite for Multi-Dimensional Evaluation in Tabular Domains [4.126887977388267]
我々は,多次元データ認識分析のためのベンチマークスイートと評価フレームワークであるMultiTabを提案する。
集約されたモデルのみを比較するのではなく、MultiTabは主要なデータ特性に沿って、196の公開データセットを分類する。
分析の結果、モデルの性能はそのような状況に非常に敏感であることがわかった。
論文 参考訳(メタデータ) (2025-05-20T13:00:43Z) - Make Still Further Progress: Chain of Thoughts for Tabular Data Leaderboard [27.224577475861214]
機械学習の基本的なデータフォーマットであるタブラルデータは、競争や現実世界のアプリケーションで主に利用されている。
本研究では,大規模言語モデルを活用したテキスト内アンサンブルフレームワークを提案する。
提案手法は,各テストインスタンスの周囲のコンテキストを,その近傍と外部モデルのプールからの予測を用いて構築する。
論文 参考訳(メタデータ) (2025-05-19T17:52:58Z) - Representation Learning for Tabular Data: A Comprehensive Survey [23.606506938919605]
行と列として構造化されたタブラルデータは、機械学習の分類と回帰アプリケーションにおいて最も一般的なデータタイプの一つである。
ディープニューラルネットワーク(DNN)は、最近、表現学習の能力を通じて有望な結果を実証した。
既存の手法を一般化能力に応じて3つの主要なカテゴリに分類する。
論文 参考訳(メタデータ) (2025-04-17T17:58:23Z) - A Closer Look at Deep Learning Methods on Tabular Datasets [78.61845513154502]
広い範囲にまたがる300以上のデータセットの集合であるTALENTについて広範な研究を行った。
我々の評価では、アンサンブルは木に基づくアプローチとニューラルアプローチの両方に効果があることが示されている。
論文 参考訳(メタデータ) (2024-07-01T04:24:07Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。