論文の概要: MambaTab: A Simple Yet Effective Approach for Handling Tabular Data
- arxiv url: http://arxiv.org/abs/2401.08867v1
- Date: Tue, 16 Jan 2024 22:44:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 17:38:24.264103
- Title: MambaTab: A Simple Yet Effective Approach for Handling Tabular Data
- Title(参考訳): MambaTab: タブラルデータを扱うためのシンプルで効果的なアプローチ
- Authors: Md Atik Ahamed and Qiang Cheng
- Abstract要約: 本研究は,表データのための構造化状態空間モデル(SSM)であるMambaTabに基づく革新的なアプローチを開発する。
MambaTabは、パラメータが大幅に少なく、プリプロセッシングが最小限で、優れたパフォーマンスを提供する。
MambaTabの効率性、スケーラビリティ、一般化可能性、予測的ゲインは、軽量で"アウト・オブ・ザ・ボックス"なソリューションであることを示している。
- 参考スコア(独自算出の注目度): 15.487912830321042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular data remains ubiquitous across domains despite growing use of images
and texts for machine learning. While deep learning models like convolutional
neural networks and transformers achieve strong performance on tabular data,
they require extensive data preprocessing, tuning, and resources, limiting
accessibility and scalability. This work develops an innovative approach based
on a structured state-space model (SSM), MambaTab, for tabular data. SSMs have
strong capabilities for efficiently extracting effective representations from
data with long-range dependencies. MambaTab leverages Mamba, an emerging SSM
variant, for end-to-end supervised learning on tables. Compared to
state-of-the-art baselines, MambaTab delivers superior performance while
requiring significantly fewer parameters and minimal preprocessing, as
empirically validated on diverse benchmark datasets. MambaTab's efficiency,
scalability, generalizability, and predictive gains signify it as a
lightweight, "out-of-the-box" solution for diverse tabular data with promise
for enabling wider practical applications.
- Abstract(参考訳): 機械学習には画像やテキストが多用されているにもかかわらず、タブラルデータはドメイン全体に分散している。
畳み込みニューラルネットワークやトランスフォーマーといったディープラーニングモデルは、表データで強力なパフォーマンスを実現する一方で、アクセシビリティとスケーラビリティを制限するために、広範なデータの前処理、チューニング、リソースが必要になる。
本研究は,表データのための構造化状態空間モデル(SSM)であるMambaTabに基づく革新的なアプローチを開発する。
SSMは、長距離依存を持つデータから効率的な表現を効率的に抽出する能力を持つ。
MambaTabは、テーブル上のエンドツーエンドの教師あり学習に、新興のSSM亜種であるMambaを利用している。
最先端のベースラインと比較して、mambatabは、様々なベンチマークデータセットで実証的に検証されるように、パラメータと最小限のプリプロセッシングを必要とするが、優れたパフォーマンスを提供する。
MambaTabの効率性、スケーラビリティ、一般化可能性、予測的ゲインは、より広範な実用的なアプリケーションを実現することを約束する多種多様な表データのための軽量な"アウト・オブ・ボックス"ソリューションであることを示している。
関連論文リスト
- TabM: Advancing Tabular Deep Learning with Parameter-Efficient Ensembling [28.37672139176765]
TabM -- BatchEnemblesのバリエーション(既存のテクニック)に基づいたシンプルなモデルです。
特に,TabMは表型DLモデルの中で最高の性能を示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:41Z) - TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - A Survey on Deep Tabular Learning [0.0]
タブラルデータは、その不均一な性質と空間構造が欠如していることから、深層学習の独特な課題を提示する。
本調査では,早期完全接続ネットワーク(FCN)から,TabNet,SAINT,TabTranSELU,MambaNetといった先進アーキテクチャに至るまで,タブラルデータのディープラーニングモデルの進化を概観する。
論文 参考訳(メタデータ) (2024-10-15T20:08:08Z) - TabMDA: Tabular Manifold Data Augmentation for Any Classifier using Transformers with In-context Subsetting [23.461204546005387]
TabMDAは、表データの多様体データ拡張のための新しい方法である。
これは、TabPFNのような事前訓練されたインコンテキストモデルを利用して、データを埋め込みスペースにマッピングする。
我々は,TabMDAを5つの標準分類器上で評価し,各種データセット間での大幅な性能向上を観察した。
論文 参考訳(メタデータ) (2024-06-03T21:51:13Z) - Large Language Models Can Automatically Engineer Features for Few-Shot Tabular Learning [35.03338699349037]
本稿では,機能エンジニアとして大規模言語モデルを用いる新しい文脈内学習フレームワークFeatLLMを提案する。
FeatLLMは高品質なルールを生成し、TabLLMやSTUNTなどよりも大幅に(平均で10%)優れている。
論文 参考訳(メタデータ) (2024-04-15T06:26:08Z) - Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - STUNT: Few-shot Tabular Learning with Self-generated Tasks from
Unlabeled Tables [64.0903766169603]
我々は,Unlabeled Tables (STUNT) からの自己生成タスクを作成した,数発のセミ教師付き学習のためのフレームワークを提案する。
私たちのキーとなるアイデアは、ランダムに選択された列をターゲットラベルとして扱うことで、多様なショットタスクを自己生成することです。
次に、メタラーニング手法を用いて、構築されたタスクで一般化可能な知識を学習する。
論文 参考訳(メタデータ) (2023-03-02T02:37:54Z) - Transfer Learning with Deep Tabular Models [66.67017691983182]
上流データにより、グラフニューラルネットワークはGBDTモデルよりも決定的な優位性を示す。
そこで本研究では,表在化学習のための現実的な診断ベンチマークを提案する。
上流と下流の特徴セットが異なる場合の擬似特徴法を提案する。
論文 参考訳(メタデータ) (2022-06-30T14:24:32Z) - SubTab: Subsetting Features of Tabular Data for Self-Supervised
Representation Learning [5.5616364225463055]
私たちはTabular Data(SubTab)のサブセット機能である新しいフレームワークを紹介します。
本稿では,タブラルデータ(SubTab)のサブセット機能である新しいフレームワークを提案する。
我々は、自動エンコーダ設定で、その機能の一部分からデータを再構成することで、その基盤となる表現をよりよく捉えることができると論じている。
論文 参考訳(メタデータ) (2021-10-08T20:11:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。