論文の概要: Tree-Regularized Tabular Embeddings
- arxiv url: http://arxiv.org/abs/2403.00963v1
- Date: Fri, 1 Mar 2024 20:26:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 15:47:18.801125
- Title: Tree-Regularized Tabular Embeddings
- Title(参考訳): 木レギュラー化管内埋め込み
- Authors: Xuan Li, Yun Wang, Bo Li
- Abstract要約: タブラルニューラルネットワーク(NN)は注目を浴びており、近年の進歩により、多くの公開データセット上のツリーベースモデルに対するパフォーマンスギャップが徐々に狭まりつつある。
我々は、均質な埋め込みの重要性を強調し、教師付き事前学習による入力の正規化に交互に集中する。
具体的には、事前訓練された木のアンサンブルの構造を利用して、生変数を単一のベクトル(T2V)またはトークンの配列(T2T)に変換する。
- 参考スコア(独自算出の注目度): 22.095328171882223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular neural network (NN) has attracted remarkable attentions and its
recent advances have gradually narrowed the performance gap with respect to
tree-based models on many public datasets. While the mainstreams focus on
calibrating NN to fit tabular data, we emphasize the importance of homogeneous
embeddings and alternately concentrate on regularizing tabular inputs through
supervised pretraining. Specifically, we extend a recent work (DeepTLF) and
utilize the structure of pretrained tree ensembles to transform raw variables
into a single vector (T2V), or an array of tokens (T2T). Without loss of space
efficiency, these binarized embeddings can be consumed by canonical tabular NN
with fully-connected or attention-based building blocks. Through quantitative
experiments on 88 OpenML datasets with binary classification task, we validated
that the proposed tree-regularized representation not only tapers the
difference with respect to tree-based models, but also achieves on-par and
better performance when compared with advanced NN models. Most importantly, it
possesses better robustness and can be easily scaled and generalized as
standalone encoder for tabular modality. Codes:
https://github.com/milanlx/tree-regularized-embedding.
- Abstract(参考訳): タブラルニューラルネットワーク(NN)は注目を浴びており、近年の進歩により、多くの公開データセット上のツリーベースモデルに対するパフォーマンスギャップが徐々に狭まりつつある。
メインストリームは、表層データに適合するNNの校正に重点を置いているが、同質な埋め込みの重要性を強調し、教師付き事前学習による表層入力の正規化に集中している。
具体的には、最近の研究(DeepTLF)を拡張し、事前訓練された木のアンサンブルの構造を利用して、生変数を単一のベクトル(T2V)またはトークンの配列(T2T)に変換する。
空間効率を損なうことなく、これらの双対埋め込みは、完全に接続されたまたは注意に基づくビルディングブロックを持つ標準的な表式NNによって消費される。
分岐分類タスクを用いた88個のOpenMLデータセットの定量的実験により,提案手法がツリーベースモデルとの違いをテーパーするだけでなく,先進的なNNモデルと比較した場合の性能と性能も向上することを確認した。
最も重要なのは、より堅牢性が向上し、テーブル型モダリティのためのスタンドアロンエンコーダとして簡単にスケールし、一般化することができることです。
コード: https://github.com/milanlx/tree-regularized-embedding。
関連論文リスト
- Team up GBDTs and DNNs: Advancing Efficient and Effective Tabular Prediction with Tree-hybrid MLPs [20.67800392863432]
タブラルデータセットは、様々なアプリケーションにおいて重要な役割を果たす。
強化決定木(GBDT)とディープニューラルネットワーク(DNN)の2つの顕著なモデルタイプは、異なる予測タスクでパフォーマンス上のアドバンテージを示している。
本稿では,GBDTとDNNの両方の利点を両立させる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-13T07:13:32Z) - Neural Network Verification with Branch-and-Bound for General Nonlinearities [63.39918329535165]
ブランチ・アンド・バウンド(BaB)は、ニューラルネットワーク(NN)検証において最も効果的な手法の一つである。
我々は、一般的な非線形性にBaBを実行し、一般的なアーキテクチャでNNを検証する汎用フレームワークGenBaBを開発した。
我々は、Sigmoid、Tanh、Sine、GeLUなどの活性化機能を持つNNを含む幅広いNNの検証におけるGenBaBの有効性を実証する。
論文 参考訳(メタデータ) (2024-05-31T17:51:07Z) - Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - Boosting gets full Attention for Relational Learning [27.82663283409287]
本研究では,木質モデルとうまく融合した構造化データに対する注意機構を,(漸進的な)ブースティングのトレーニングコンテキストで導入する。
シミュレーションおよび実世界のドメインに関する実験は、木に基づくモデルとニューラルネットベースのモデルの両方を含む最先端技術に対する我々の手法の競争力を示す。
論文 参考訳(メタデータ) (2024-02-22T19:16:01Z) - Efficient Link Prediction via GNN Layers Induced by Negative Sampling [92.05291395292537]
リンク予測のためのグラフニューラルネットワーク(GNN)は、緩やかに2つの広いカテゴリに分けられる。
まず、Emphnode-wiseアーキテクチャは各ノードの個別の埋め込みをプリコンパイルし、後に単純なデコーダで結合して予測を行う。
第二に、エンフェッジワイド法は、ペアワイド関係の表現を強化するために、エッジ固有のサブグラフ埋め込みの形成に依存している。
論文 参考訳(メタデータ) (2023-10-14T07:02:54Z) - Compacting Binary Neural Networks by Sparse Kernel Selection [58.84313343190488]
本稿は,BNNにおけるバイナリカーネルの分散化がほぼ不可能であることを示すものである。
我々は、選択過程をエンドツーエンドに最適化するだけでなく、選択したコードワードの非反復的占有を維持できる置換ストレートスルー推定器(PSTE)を開発した。
実験により,提案手法はモデルサイズとビット幅の計算コストの両方を削減し,同等の予算下での最先端のBNNと比較して精度の向上を実現する。
論文 参考訳(メタデータ) (2023-03-25T13:53:02Z) - Sparse tree-based initialization for neural networks [0.0]
専用ニューラルネットワーク(NN)アーキテクチャは、画像のCNNやテキストのRNNといった特定のデータタイプを処理可能であることを示す。
本研究では,(潜在的に深い)多層パーセプトロン(MLP)の新しい手法を提案する。
NNトレーニング中に新しい初期化器が暗黙の正規化を行うことを示すとともに,第1層がスパース機能抽出器として機能することを強調する。
論文 参考訳(メタデータ) (2022-09-30T07:44:03Z) - Recurrent Bilinear Optimization for Binary Neural Networks [58.972212365275595]
BNNは、実数値重みとスケールファクターの内在的双線型関係を無視している。
私たちの仕事は、双線形の観点からBNNを最適化する最初の試みです。
我々は、様々なモデルやデータセット上で最先端のBNNに対して印象的な性能を示す頑健なRBONNを得る。
論文 参考訳(メタデータ) (2022-09-04T06:45:33Z) - Why do tree-based models still outperform deep learning on tabular data? [0.0]
木をベースとしたモデルが中規模データの最先端のままであることを示す。
木系モデルとニューラルネットワーク(NN)の異なる帰納バイアスに関する実証的研究を行う。
論文 参考訳(メタデータ) (2022-07-18T08:36:08Z) - Temporal Calibrated Regularization for Robust Noisy Label Learning [60.90967240168525]
ディープニューラルネットワーク(DNN)は、大規模な注釈付きデータセットの助けを借りて、多くのタスクで大きな成功を収めている。
しかし、大規模なデータのラベル付けは非常にコストがかかりエラーが発生しやすいため、アノテーションの品質を保証することは困難である。
本稿では,従来のラベルと予測を併用したTCR(Temporal Calibrated Regularization)を提案する。
論文 参考訳(メタデータ) (2020-07-01T04:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。