論文の概要: xRFM: Accurate, scalable, and interpretable feature learning models for tabular data
- arxiv url: http://arxiv.org/abs/2508.10053v1
- Date: Tue, 12 Aug 2025 18:08:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.054139
- Title: xRFM: Accurate, scalable, and interpretable feature learning models for tabular data
- Title(参考訳): xRFM:表データの精度、拡張性、解釈可能な特徴学習モデル
- Authors: Daniel Beaglehole, David Holzmüller, Adityanarayanan Radhakrishnan, Mikhail Belkin,
- Abstract要約: 本研究では,特徴学習カーネルマシンを木構造と組み合わせ,データの局所構造に適応させるアルゴリズムであるxRFMを紹介する。
我々は、xRFMが100ドルの回帰データセットで最高のパフォーマンスを達成し、200ドルの分類データセットで最高のメソッドと競合することを示した。
- 参考スコア(独自算出の注目度): 16.220649319897603
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Inference from tabular data, collections of continuous and categorical variables organized into matrices, is a foundation for modern technology and science. Yet, in contrast to the explosive changes in the rest of AI, the best practice for these predictive tasks has been relatively unchanged and is still primarily based on variations of Gradient Boosted Decision Trees (GBDTs). Very recently, there has been renewed interest in developing state-of-the-art methods for tabular data based on recent developments in neural networks and feature learning methods. In this work, we introduce xRFM, an algorithm that combines feature learning kernel machines with a tree structure to both adapt to the local structure of the data and scale to essentially unlimited amounts of training data. We show that compared to $31$ other methods, including recently introduced tabular foundation models (TabPFNv2) and GBDTs, xRFM achieves best performance across $100$ regression datasets and is competitive to the best methods across $200$ classification datasets outperforming GBDTs. Additionally, xRFM provides interpretability natively through the Average Gradient Outer Product.
- Abstract(参考訳): 表形式のデータから推測すると、連続変数と分類変数の集合が行列にまとめられ、現代の技術と科学の基礎となっている。
しかし、AIの他の部分の爆発的な変化とは対照的に、これらの予測タスクのベストプラクティスは比較的変化せず、現在でも主にGBDT(Gradient Boosted Decision Trees)のバリエーションに基づいている。
最近では、ニューラルネットワークや特徴学習手法の最近の発展に基づいて、グラフデータのための最先端の手法の開発に新たな関心が寄せられている。
本研究では,特徴学習カーネルマシンと木構造を組み合わせたxRFMを導入し,データの局所構造に適応し,基本的に無制限なトレーニングデータにスケールする手法を提案する。
我々は、最近導入された表形式の基礎モデル(TabPFNv2)やGBDTなど、31ドルの他の手法と比較して、xRFMは100ドルの回帰データセットで最高のパフォーマンスを達成し、GBDTより優れた200ドルの分類データセットで最高のメソッドと競合することを示した。
さらに、xRFMはAverage Gradient Outer Productを通じて、ネイティブに解釈性を提供します。
関連論文リスト
- Drift-Resilient TabPFN: In-Context Learning Temporal Distribution Shifts on Tabular Data [39.40116554523575]
In-Context Learning with a Prior-Data Fitted Network に基づく新しいアプローチである Drift-Resilient TabPFN を提案する。
先行した合成データセットのベイズ推定を近似することを学ぶ。
精度は0.688から0.744に向上し、OC AUCは0.786から0.832に向上し、キャリブレーションも強化された。
論文 参考訳(メタデータ) (2024-11-15T23:49:23Z) - TabEBM: A Tabular Data Augmentation Method with Distinct Class-Specific Energy-Based Models [10.88959673845634]
TabEBMはEnergy-Based Models (EBMs)を用いたクラス条件生成法である
実験の結果,TabEBMは既存の手法よりも高品質で統計的忠実度の高い合成データを生成することがわかった。
論文 参考訳(メタデータ) (2024-09-24T14:25:59Z) - Revisiting Nearest Neighbor for Tabular Data: A Deep Tabular Baseline Two Decades Later [76.66498833720411]
K$-nearest neighbors (KNN) はもともと,インスタンス間のセマンティックな類似性を捉えるために線形投影を学習するために設計されたものだ。
意外なことに、SGDを用いたNAAの実装と次元減少のない実装は、表データの良好な性能をすでに達成しています。
本稿では、損失関数、予測戦略、深いアーキテクチャなど、これらの改善の背景にある要因を分析して、論文を締めくくる。
論文 参考訳(メタデータ) (2024-07-03T16:38:57Z) - A Closer Look at Deep Learning Methods on Tabular Datasets [52.50778536274327]
タブラルデータは、機械学習のさまざまな領域で広く使われている。
Deep Neural Network(DNN)ベースの手法は最近、有望なパフォーマンスを実証した。
我々は,32種類の最先端の深部・木質の手法を比較し,その平均性能を複数の基準で評価した。
論文 参考訳(メタデータ) (2024-07-01T04:24:07Z) - Is Deep Learning finally better than Decision Trees on Tabular Data? [19.657605376506357]
タブラルデータは、多くの現実世界のアプリケーションでその汎用性と使いやすさのために、ユビキタスなデータモダリティである。
データに関する最近の研究は、この領域におけるニューラルネットワークの限界についてユニークな視点を提供する。
本研究は、その基礎となる学習パラダイムに基づいて、10の最先端モデルを分類する。
論文 参考訳(メタデータ) (2024-02-06T12:59:02Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Rank-R FNN: A Tensor-Based Learning Model for High-Order Data
Classification [69.26747803963907]
Rank-R Feedforward Neural Network (FNN)は、そのパラメータにCanonical/Polyadic分解を課すテンソルベースの非線形学習モデルである。
まず、入力をマルチリニアアレイとして扱い、ベクトル化の必要性を回避し、すべてのデータ次元に沿って構造情報を十分に活用することができる。
Rank-R FNNの普遍的な近似と学習性の特性を確立し、実世界のハイパースペクトルデータセットのパフォーマンスを検証する。
論文 参考訳(メタデータ) (2021-04-11T16:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。