Fugu-MT 論文翻訳(概要): Closing the gap on tabular data with Fourier and Implicit Categorical Features

論文の概要: Closing the gap on tabular data with Fourier and Implicit Categorical Features

arxiv url: http://arxiv.org/abs/2602.23182v1
Date: Thu, 26 Feb 2026 16:40:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.780631
Title: Closing the gap on tabular data with Fourier and Implicit Categorical Features
Title（参考訳）: Fourier and Implicit Categorical Features による表データのギャップの解消
Authors: Marius Dragoi, Florin Gogianu, Elena Burceanu,
Abstract要約: 提案した機能前処理がディープラーニングモデルの性能を大幅に向上させることを示す。提案した機能プリプロセッシングにより,XGBoostと密に一致するか,あるいは超える性能を実現することができることを示す。
参考スコア（独自算出の注目度）: 3.071430103942477
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While Deep Learning has demonstrated impressive results in applications on various data types, it continues to lag behind tree-based methods when applied to tabular data, often referred to as the last "unconquered castle" for neural networks. We hypothesize that a significant advantage of tree-based methods lies in their intrinsic capability to model and exploit non-linear interactions induced by features with categorical characteristics. In contrast, neural-based methods exhibit biases toward uniform numerical processing of features and smooth solutions, making it challenging for them to effectively leverage such patterns. We address this performance gap by using statistical-based feature processing techniques to identify features that are strongly correlated with the target once discretized. We further mitigate the bias of deep models for overly-smooth solutions, a bias that does not align with the inherent properties of the data, using Learned Fourier. We show that our proposed feature preprocessing significantly boosts the performance of deep learning models and enables them to achieve a performance that closely matches or surpasses XGBoost on a comprehensive tabular data benchmark.
Abstract（参考訳）: Deep Learningは、さまざまなデータタイプのアプリケーションにおいて、印象的な結果を示しているが、グラフデータに適用された場合、ツリーベースのメソッドが遅れている。木に基づく手法の大きな利点は、分類的特徴を持つ特徴によって引き起こされる非線形相互作用をモデル化し、活用する本質的な能力にあると仮定する。対照的に、ニューラルネットワーク手法は特徴の均一な数値処理や滑らかな解に対するバイアスを示しており、そのようなパターンを効果的に活用することは困難である。本稿では,統計に基づく特徴処理技術を用いて,識別されたターゲットと強く相関する特徴を特定することで,この性能ギャップに対処する。我々はさらに、学習されたフーリエを用いて、データ固有の性質と一致しない過度に滑らかな解に対するディープモデルのバイアスを緩和する。提案する機能前処理は,ディープラーニングモデルの性能を大幅に向上させ,総合的な表データベンチマークにおいて,XGBoostと密に一致または超越した性能を実現することができることを示す。

関連論文リスト

Nonparametric Data Attribution for Diffusion Models [57.820618036556084]
生成モデルのデータ属性は、個々のトレーニング例がモデル出力に与える影響を定量化する。生成画像とトレーニング画像のパッチレベルの類似性によって影響を測定する非パラメトリック属性法を提案する。
論文参考訳（メタデータ） (2025-10-16T03:37:16Z)
Mambular: A Sequential Model for Tabular Deep Learning [0.7184556517162347]
本稿では,グラフデータに対する自己回帰状態空間モデルの利用について検討する。既存のベンチマークモデルと比較する。その結果,特徴をシーケンスとして解釈して処理することで,大幅な性能向上が期待できることがわかった。
論文参考訳（メタデータ） (2024-08-12T16:57:57Z)
A Performance-Driven Benchmark for Feature Selection in Tabular Deep Learning [131.2910403490434]
データサイエンティストは通常、データセットにできるだけ多くの機能を集め、既存の機能から新しい機能を設計する。既存のタブ形式の特徴選択のためのベンチマークでは、古典的な下流モデル、おもちゃの合成データセット、あるいは下流のパフォーマンスに基づいて特徴セレクタを評価していない。変換器を含む下流ニューラルネットワーク上で評価された課題のある特徴選択ベンチマークを構築した。また,従来の特徴選択法よりも高い性能を有するニューラルネットワークのための,Lassoのインプット・グラディエント・ベース・アナログも提案する。
論文参考訳（メタデータ） (2023-11-10T05:26:10Z)
Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文参考訳（メタデータ） (2023-10-17T08:04:45Z)
Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文参考訳（メタデータ） (2023-06-03T20:12:27Z)
Deep networks for system identification: a Survey [56.34005280792013]
システム識別は、入力出力データから動的システムの数学的記述を学習する。同定されたモデルの主な目的は、以前の観測から新しいデータを予測することである。我々は、フィードフォワード、畳み込み、リカレントネットワークなどの文献で一般的に採用されているアーキテクチャについて論じる。
論文参考訳（メタデータ） (2023-01-30T12:38:31Z)
Feature Weaken: Vicinal Data Augmentation for Classification [1.7013938542585925]
モデルトレーニングと同一のコサイン類似性を持つビジナルデータ分布を構築するためにFeature Weakenを用いている。この研究は、モデルの分類性能と一般化を改善するだけでなく、モデルの訓練を安定させ、モデルの収束を加速させる。
論文参考訳（メタデータ） (2022-11-20T11:00:23Z)
Feature Space Particle Inference for Neural Network Ensembles [13.392254060510666]
粒子ベースの推論法はベイズの観点から有望なアプローチを提供する。特定の中間層が活性化される特徴空間における粒子の最適化を提案する。提案手法は,各メンバーに対して,アンサンブル予測の堅牢性の向上を期待する特徴を捉えることを奨励する。
論文参考訳（メタデータ） (2022-06-02T09:16:26Z)
Towards Open-World Feature Extrapolation: An Inductive Graph Learning Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文参考訳（メタデータ） (2021-10-09T09:02:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。