論文の概要: HyperTab: Hypernetwork Approach for Deep Learning on Small Tabular
Datasets
- arxiv url: http://arxiv.org/abs/2304.03543v1
- Date: Fri, 7 Apr 2023 08:48:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 12:35:28.266302
- Title: HyperTab: Hypernetwork Approach for Deep Learning on Small Tabular
Datasets
- Title(参考訳): HyperTab: 小さなタブラルデータセットを用いたディープラーニングのためのハイパーネットワークアプローチ
- Authors: Witold Wydma\'nski, Oleksii Bulenok, Marek \'Smieja
- Abstract要約: データセット上の小さなサンプル問題を解決するためのハイパーネットワークベースのアプローチであるHyperTabを紹介する。
ランダムフォレストとニューラルネットワークの利点を組み合わせることで、HyperTabはニューラルネットワークのアンサンブルを生成する。
私たちは、HyperTabが小さなデータで他のメソッドを一貫して上回り、より大きなデータセットでそれと同等のスコアを示します。
- 参考スコア(独自算出の注目度): 4.395018004669311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning has achieved impressive performance in many domains, such as
computer vision and natural language processing, but its advantage over
classical shallow methods on tabular datasets remains questionable. It is
especially challenging to surpass the performance of tree-like ensembles, such
as XGBoost or Random Forests, on small-sized datasets (less than 1k samples).
To tackle this challenge, we introduce HyperTab, a hypernetwork-based approach
to solving small sample problems on tabular datasets. By combining the
advantages of Random Forests and neural networks, HyperTab generates an
ensemble of neural networks, where each target model is specialized to process
a specific lower-dimensional view of the data. Since each view plays the role
of data augmentation, we virtually increase the number of training samples
while keeping the number of trainable parameters unchanged, which prevents
model overfitting. We evaluated HyperTab on more than 40 tabular datasets of a
varying number of samples and domains of origin, and compared its performance
with shallow and deep learning models representing the current
state-of-the-art. We show that HyperTab consistently outranks other methods on
small data (with a statistically significant difference) and scores comparable
to them on larger datasets.
We make a python package with the code available to download at
https://pypi.org/project/hypertab/
- Abstract(参考訳): ディープラーニングは、コンピュータビジョンや自然言語処理など、多くの領域で顕著なパフォーマンスを達成したが、表形式のデータセットにおける古典的な浅いメソッドよりも優れていることは疑問視されている。
XGBoostやRandom Forestsのような木のようなアンサンブルのパフォーマンスを、1kサンプル未満の小さなデータセットで超越することは特に困難である。
この課題に対処するために、ハイパーネットワークベースのアプローチであるHyperTabを導入する。
ランダムフォレストとニューラルネットワークの利点を組み合わせることで、ハイパータブはニューラルネットワークのアンサンブルを生成します。
各ビューがデータ拡張の役割を担っているため、トレーニング可能なパラメータの数を一定に保ちながら、トレーニングサンプルの数を事実上増加させ、モデルオーバーフィッティングを防止する。
さまざまなサンプルとドメインの40以上の表型データセット上でハイパータブを評価し,そのパフォーマンスを現在の最先端を表す浅層および深層学習モデルと比較した。
hypertabは(統計的に有意な差がある)小さなデータで他のメソッドを一貫して上回っており、より大きなデータセットでそれと同等のスコアを示している。
コードはhttps://pypi.org/project/hypertab/でダウンロードできます。
関連論文リスト
- TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - In-Context Data Distillation with TabPFN [11.553950697974825]
In-context data distillation (ICD) は、TabPFNのコンテキストを最適化することでこれらの制約を効果的に除去する新しい手法である。
ICDにより、TabPFNは固定メモリ予算ではるかに大きなデータセットを処理でき、TabPFNの二次メモリの複雑さは向上するが、多くのチューニングステップのコストがかかる。
論文 参考訳(メタデータ) (2024-02-10T15:23:45Z) - MambaTab: A Plug-and-Play Model for Learning Tabular Data [13.110156202816112]
本研究は,表データに対する構造化状態空間モデル(SSM)であるMambaTabに基づく革新的なアプローチを導入する。
MambaTabは、さまざまなベンチマークデータセットで実証的に検証されるように、パラメータを著しく少なくしながら、優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-01-16T22:44:12Z) - MotherNet: A Foundational Hypernetwork for Tabular Classification [1.9643748953805937]
我々は、数百万の分類タスクで訓練されたMotherNetと呼ばれるハイパーネットワークアーキテクチャを提案する。
MotherNetは、特定のデータセットのトレーニングを、単一のフォワードパスを通じてコンテキスト内学習に置き換える。
MotherNetが生成する子ネットワークは、コンテキスト内学習を使用して、小さなデータセット上で勾配降下を用いてトレーニングされたニューラルネットワークより優れています。
論文 参考訳(メタデータ) (2023-12-14T01:48:58Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - When Do Neural Nets Outperform Boosted Trees on Tabular Data? [65.30290020731825]
私たちは一歩後退して、'NN vs. GBDT'議論の重要性に疑問を投げかけます。
驚くほど多くのデータセットに対して、GBDTとNNのパフォーマンスの違いは無視できる。
我々は、データセットのどの特性がNNやGBDTを適切に動作させるために適しているかを決定するために、数十のメタ機能を分析します。
私たちの洞察は、実践者がデータセット上で最もうまく機能するテクニックを決定するためのガイドとして機能します。
論文 参考訳(メタデータ) (2023-05-04T17:04:41Z) - STUNT: Few-shot Tabular Learning with Self-generated Tasks from
Unlabeled Tables [64.0903766169603]
我々は,Unlabeled Tables (STUNT) からの自己生成タスクを作成した,数発のセミ教師付き学習のためのフレームワークを提案する。
私たちのキーとなるアイデアは、ランダムに選択された列をターゲットラベルとして扱うことで、多様なショットタスクを自己生成することです。
次に、メタラーニング手法を用いて、構築されたタスクで一般化可能な知識を学習する。
論文 参考訳(メタデータ) (2023-03-02T02:37:54Z) - Why do tree-based models still outperform deep learning on tabular data? [0.0]
木をベースとしたモデルが中規模データの最先端のままであることを示す。
木系モデルとニューラルネットワーク(NN)の異なる帰納バイアスに関する実証的研究を行う。
論文 参考訳(メタデータ) (2022-07-18T08:36:08Z) - TabPFN: A Transformer That Solves Small Tabular Classification Problems
in a Second [48.87527918630822]
トレーニングされたトランスフォーマーであるTabPFNは、小さなデータセットの教師付き分類を1秒以内で行うことができる。
TabPFNはコンテキスト内学習(ICL)を行い、ラベル付きサンプルのシーケンスを使用して予測を行う。
提案手法は, 強化木よりも明らかに優れており, 230$times$ Speedupの複雑なAutoMLシステムと同等性能を示す。
論文 参考訳(メタデータ) (2022-07-05T07:17:43Z) - Transfer Learning with Deep Tabular Models [66.67017691983182]
上流データにより、グラフニューラルネットワークはGBDTモデルよりも決定的な優位性を示す。
そこで本研究では,表在化学習のための現実的な診断ベンチマークを提案する。
上流と下流の特徴セットが異なる場合の擬似特徴法を提案する。
論文 参考訳(メタデータ) (2022-06-30T14:24:32Z) - Hopular: Modern Hopfield Networks for Tabular Data [5.470026407471584]
中小データセットのための新しいディープラーニングアーキテクチャである"Hopular"を提案する。
Hopularは格納されたデータを使用して、フィーチャー機能、フィーチャーターゲット、サンプルサンプル依存関係を識別する。
1,000サンプル未満の小さなデータセットの実験では、HopularはGradient Boosting、Random Forests、SVM、特にいくつかのDeep Learningメソッドを超越している。
論文 参考訳(メタデータ) (2022-06-01T17:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。