論文の概要: Team up GBDTs and DNNs: Advancing Efficient and Effective Tabular Prediction with Tree-hybrid MLPs
- arxiv url: http://arxiv.org/abs/2407.09790v1
- Date: Sat, 13 Jul 2024 07:13:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 20:47:21.520819
- Title: Team up GBDTs and DNNs: Advancing Efficient and Effective Tabular Prediction with Tree-hybrid MLPs
- Title(参考訳): GBDT と DNN を組む:木ハイブリッド MLP を用いた効率的かつ効果的な語彙予測
- Authors: Jiahuan Yan, Jintai Chen, Qianxing Wang, Danny Z. Chen, Jian Wu,
- Abstract要約: タブラルデータセットは、様々なアプリケーションにおいて重要な役割を果たす。
強化決定木(GBDT)とディープニューラルネットワーク(DNN)の2つの顕著なモデルタイプは、異なる予測タスクでパフォーマンス上のアドバンテージを示している。
本稿では,GBDTとDNNの両方の利点を両立させる新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 20.67800392863432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular datasets play a crucial role in various applications. Thus, developing efficient, effective, and widely compatible prediction algorithms for tabular data is important. Currently, two prominent model types, Gradient Boosted Decision Trees (GBDTs) and Deep Neural Networks (DNNs), have demonstrated performance advantages on distinct tabular prediction tasks. However, selecting an effective model for a specific tabular dataset is challenging, often demanding time-consuming hyperparameter tuning. To address this model selection dilemma, this paper proposes a new framework that amalgamates the advantages of both GBDTs and DNNs, resulting in a DNN algorithm that is as efficient as GBDTs and is competitively effective regardless of dataset preferences for GBDTs or DNNs. Our idea is rooted in an observation that deep learning (DL) offers a larger parameter space that can represent a well-performing GBDT model, yet the current back-propagation optimizer struggles to efficiently discover such optimal functionality. On the other hand, during GBDT development, hard tree pruning, entropy-driven feature gate, and model ensemble have proved to be more adaptable to tabular data. By combining these key components, we present a Tree-hybrid simple MLP (T-MLP). In our framework, a tensorized, rapidly trained GBDT feature gate, a DNN architecture pruning approach, as well as a vanilla back-propagation optimizer collaboratively train a randomly initialized MLP model. Comprehensive experiments show that T-MLP is competitive with extensively tuned DNNs and GBDTs in their dominating tabular benchmarks (88 datasets) respectively, all achieved with compact model storage and significantly reduced training duration.
- Abstract(参考訳): タブラルデータセットは、様々なアプリケーションにおいて重要な役割を果たす。
したがって、表データの効率的で効果的で、広く互換性のある予測アルゴリズムを開発することが重要である。
現在、Gradient Boosted Decision Trees (GBDTs) とDeep Neural Networks (DNNs) という2つの著名なモデルタイプが、異なる表形式の予測タスクでパフォーマンス上のアドバンテージを示している。
しかし、特定の表データセットに対して有効なモデルを選択することは困難であり、しばしば時間を要するハイパーパラメータチューニングを必要とする。
このモデル選択ジレンマに対処するために,GBDTとDNNの両方の利点を両立させる新しいフレームワークを提案する。
我々の考えは、ディープラーニング(DL)が優れたGBDTモデルを表現できるより大きなパラメータ空間を提供するという観察に根ざしているが、現在のバックプロパゲーションオプティマイザは、そのような最適な機能を効率的に発見するのに苦労している。
一方, GBDT 開発においては, 硬木刈り, エントロピー駆動型特徴ゲート, モデルアンサンブルが表層データに適応することが証明されている。
これらのキーコンポーネントを組み合わせることで、Tree-hybrid Simple MLP(T-MLP)を提案する。
我々のフレームワークでは、テンソル化、高速訓練されたGBDT機能ゲート、DNNアーキテクチャプルーニングアプローチ、およびバニラバックプロパゲーションオプティマイザがランダムに初期化MLPモデルを協調訓練する。
総合的な実験により、T-MLPは、それぞれの支配的な表式ベンチマーク(88データセット)において、広範囲に調整されたDNNとGBDTと競合し、いずれもコンパクトなモデルストレージとトレーニング期間を大幅に短縮した。
関連論文リスト
- In-Context Data Distillation with TabPFN [11.553950697974825]
In-context data distillation (ICD) は、TabPFNのコンテキストを最適化することでこれらの制約を効果的に除去する新しい手法である。
ICDにより、TabPFNは固定メモリ予算ではるかに大きなデータセットを処理でき、TabPFNの二次メモリの複雑さは向上するが、多くのチューニングステップのコストがかかる。
論文 参考訳(メタデータ) (2024-02-10T15:23:45Z) - Coevolutionary Algorithm for Building Robust Decision Trees under
Minimax Regret [12.72963164625931]
本稿では、堅牢なアルゴリズム決定木(DT)を作成するために設計された新しい共進化アルゴリズム(CoEvoRDT)を提案する。
従来のDTアルゴリズムの制限により、適応的共進化を利用してDTを進化させ、摂動入力データとの相互作用から学習する。
CoEvoRDTは20の一般的なデータセットでテストされており、4つの最先端アルゴリズムよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-12-14T16:12:22Z) - REST: Enhancing Group Robustness in DNNs through Reweighted Sparse
Training [49.581884130880944]
ディープニューラルネットワーク(DNN)は様々な領域で有効であることが証明されている。
しかし、彼らは推論中に一部の少数派でうまく行動するのに苦労することが多い。
論文 参考訳(メタデータ) (2023-12-05T16:27:54Z) - SPARE: A Single-Pass Neural Model for Relational Databases [36.55513135391452]
我々は、GNNと同様の精度を提供しながら、RDB上で効率的にトレーニングできる新しいニューラルネットワーククラスであるSPAREを提案する。
GNNとは異なる効率的なトレーニングを可能にするため、SPAREでは、RDB内のデータが予測正則構造を持つという事実を活用している。
論文 参考訳(メタデータ) (2023-10-20T15:23:17Z) - When Do Neural Nets Outperform Boosted Trees on Tabular Data? [65.30290020731825]
私たちは一歩後退して、'NN vs. GBDT'議論の重要性に疑問を投げかけます。
驚くほど多くのデータセットに対して、GBDTとNNのパフォーマンスの違いは無視できる。
我々は、データセットのどの特性がNNやGBDTを適切に動作させるために適しているかを決定するために、数十のメタ機能を分析します。
私たちの洞察は、実践者がデータセット上で最もうまく機能するテクニックを決定するためのガイドとして機能します。
論文 参考訳(メタデータ) (2023-05-04T17:04:41Z) - Towards Robust k-Nearest-Neighbor Machine Translation [72.9252395037097]
近年,k-Nearest-Neighbor Machine Translation (kNN-MT)がNMTの重要な研究方向となっている。
その主なアイデアは、NMTモデルを更新することなく翻訳を変更するために、追加のデータストアから有用なキーと値のペアを取得することである。
取り出したノイズペアはモデル性能を劇的に低下させる。
ノイズの影響を軽減するために,頑健なトレーニングを施した信頼性向上kNN-MTモデルを提案する。
論文 参考訳(メタデータ) (2022-10-17T07:43:39Z) - Recurrent Bilinear Optimization for Binary Neural Networks [58.972212365275595]
BNNは、実数値重みとスケールファクターの内在的双線型関係を無視している。
私たちの仕事は、双線形の観点からBNNを最適化する最初の試みです。
我々は、様々なモデルやデータセット上で最先端のBNNに対して印象的な性能を示す頑健なRBONNを得る。
論文 参考訳(メタデータ) (2022-09-04T06:45:33Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Enhancing Transformers with Gradient Boosted Decision Trees for NLI
Fine-Tuning [7.906608953906889]
ニューラルネットワークによる余分な計算を行なわずに性能を向上させるために、微調整中に計算された機能にGBDTヘッドを装着するFreeGBDTを導入する。
強力なベースラインモデルを用いて,複数のNLIデータセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2021-05-08T22:31:51Z) - Deep Time Delay Neural Network for Speech Enhancement with Full Data
Learning [60.20150317299749]
本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。
トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T06:32:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。