論文の概要: TabPrep: Closing the Feature Engineering Gap in Tabular Benchmarks
- arxiv url: http://arxiv.org/abs/2606.02384v1
- Date: Mon, 01 Jun 2026 15:33:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.392489
- Title: TabPrep: Closing the Feature Engineering Gap in Tabular Benchmarks
- Title(参考訳): TabPrep: タブラルベンチマークで機能エンジニアリングギャップを閉鎖する
- Authors: Andrej Tschalzev, Nick Erickson, Yuyang Wang, Huzefa Rangwala, Stefan Lüdtke, Heiner Stuckenschmidt, Christian Bartelt,
- Abstract要約: TabPrepは、3つの特定の構造データパターンをターゲットにした機能ジェネレータで構成される軽量な前処理パイプラインである。
広く使われているモデルクラスの多くは、これらのパターンに予測可能な盲点を示し、体系的な特徴工学だけで新しいピーク性能を確立することができることを示す。
TabArenaベンチマーク全体を通じて、TabPrepをモデルトレーニングとチューニングに統合することで、ツリーベース、ニューラル、リニア、ファンデーションモデルのパフォーマンスが一貫して向上する。
- 参考スコア(独自算出の注目度): 32.521087490144964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Progress in tabular machine learning has largely focused on increasingly sophisticated model architectures. At the same time, feature engineering remains a critical yet underexplored component of real-world modeling pipelines that is entirely absent from modern benchmarks, which creates an unquantified evaluation gap. In this work, we introduce TabPrep, a lightweight preprocessing pipeline composed of feature generators that are carefully designed to target three specific structural data patterns. We show that many widely used model classes exhibit predictable blind spots to these patterns and that systematic feature engineering alone can establish new peak performance. Across the TabArena benchmark, integrating TabPrep into model training and tuning consistently improves performance for tree-based, neural, linear, and foundation models, often surpassing gains achieved by model-centric innovations alone. TabPrep outperforms previous automated feature engineering approaches in performance, efficiency, and applicability across datasets, enabling integration into large-scale benchmarks. By releasing TabPrep (see https://github.com/atschalz/tabprep), we enable researchers to integrate feature engineering into their benchmarking setup, filling a longstanding gap in tabular evaluations.
- Abstract(参考訳): 表形式の機械学習の進歩は、ますます洗練されたモデルアーキテクチャに重点を置いてきた。
同時に、機能エンジニアリングは、現代的なベンチマークから完全に欠落している現実世界のモデリングパイプラインにおいて、重要で過小評価されていないコンポーネントであり続けている。
本研究では,3つの構造データパターンを対象とする機能生成器で構成される軽量プリプロセッシングパイプラインであるTabPrepを紹介する。
広く使われているモデルクラスの多くは、これらのパターンに予測可能な盲点を示し、体系的な特徴工学だけで新しいピーク性能を確立することができることを示す。
TabArenaベンチマーク全体では、TabPrepをモデルトレーニングとチューニングに統合することで、ツリーベース、ニューラル、リニア、ファンデーションモデルのパフォーマンスが一貫して向上し、モデル中心のイノベーションだけで達成されるゲインを上回ることがしばしばある。
TabPrepは、データセット間のパフォーマンス、効率、適用性において、以前の自動機能エンジニアリングアプローチよりも優れており、大規模なベンチマークとの統合を可能にしている。
TabPrep のリリース (https://github.com/atschalz/tabprep を参照) により、研究者は、機能エンジニアリングをベンチマーク設定に統合することができ、長期にわたるタブ評価のギャップを埋めることができます。
関連論文リスト
- MulTaBench: Benchmarking Multimodal Tabular Learning with Text and Image [52.47434184153733]
MulTaBenchは40のデータセットのベンチマークで、画像-タブラルタスクとテキスト-タブラルタスクを等しく分割する。
テキストと画像のモダリティにまたがって、ターゲット認識表現のチューニングによる利得が一般化されることを示す。
論文 参考訳(メタデータ) (2026-05-11T14:12:05Z) - Comparing Task-Agnostic Embedding Models for Tabular Data [1.6479389738270018]
この研究は特に表現学習、すなわち伝達可能なタスクに依存しない埋め込みに焦点を当てている。
テーブルライザ機能は、最近の基礎モデルよりも最大3桁高速で、同等または優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-18T09:10:40Z) - Mitra: Mixed Synthetic Priors for Enhancing Tabular Foundation Models [85.64873567417396]
実世界のデータに対して,その多様性,特異性,および性能のために選択された合成前駆体の硬化した混合物をトレーニングしたTFMであるMitraを紹介する。
Mitraは、TabPFNv2やTabICLのような最先端のTFMを、分類と回帰のベンチマークで一貫して上回っている。
論文 参考訳(メタデータ) (2025-10-24T07:15:06Z) - TabArena: A Living Benchmark for Machine Learning on Tabular Data [45.52876263971067]
本研究では,最初の持続的リビングベンチマークシステムであるTabArenaを紹介する。
我々は、データセットとよく実装されたモデルの代表的なコレクションを手動でキュレートする。
深層学習の手法は、より大規模な時間予算とアンサンブルに支えられていることを示す。
いくつかの深層学習モデルは、オーバーフィットした検証セットのため、クロスモデルアンサンブルで過剰に表現されている。
論文 参考訳(メタデータ) (2025-06-20T07:14:48Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - AutoBERT-Zero: Evolving BERT Backbone from Scratch [94.89102524181986]
そこで本稿では,提案するハイブリッドバックボーンアーキテクチャを自動検索するOP-NASアルゴリズムを提案する。
提案するOP-NASの効率を向上させるために,探索アルゴリズムと候補モデルの評価を最適化する。
実験の結果、検索されたアーキテクチャ(AutoBERT-Zero)は、様々な下流タスクにおいてBERTとそのバリエーションの異なるモデル容量を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-07-15T16:46:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。