論文の概要: MambaTab: A Simple Yet Effective Approach for Handling Tabular Data
- arxiv url: http://arxiv.org/abs/2401.08867v1
- Date: Tue, 16 Jan 2024 22:44:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 17:38:24.264103
- Title: MambaTab: A Simple Yet Effective Approach for Handling Tabular Data
- Title(参考訳): MambaTab: タブラルデータを扱うためのシンプルで効果的なアプローチ
- Authors: Md Atik Ahamed and Qiang Cheng
- Abstract要約: 本研究は,表データのための構造化状態空間モデル(SSM)であるMambaTabに基づく革新的なアプローチを開発する。
MambaTabは、パラメータが大幅に少なく、プリプロセッシングが最小限で、優れたパフォーマンスを提供する。
MambaTabの効率性、スケーラビリティ、一般化可能性、予測的ゲインは、軽量で"アウト・オブ・ザ・ボックス"なソリューションであることを示している。
- 参考スコア(独自算出の注目度): 15.487912830321042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular data remains ubiquitous across domains despite growing use of images
and texts for machine learning. While deep learning models like convolutional
neural networks and transformers achieve strong performance on tabular data,
they require extensive data preprocessing, tuning, and resources, limiting
accessibility and scalability. This work develops an innovative approach based
on a structured state-space model (SSM), MambaTab, for tabular data. SSMs have
strong capabilities for efficiently extracting effective representations from
data with long-range dependencies. MambaTab leverages Mamba, an emerging SSM
variant, for end-to-end supervised learning on tables. Compared to
state-of-the-art baselines, MambaTab delivers superior performance while
requiring significantly fewer parameters and minimal preprocessing, as
empirically validated on diverse benchmark datasets. MambaTab's efficiency,
scalability, generalizability, and predictive gains signify it as a
lightweight, "out-of-the-box" solution for diverse tabular data with promise
for enabling wider practical applications.
- Abstract(参考訳): 機械学習には画像やテキストが多用されているにもかかわらず、タブラルデータはドメイン全体に分散している。
畳み込みニューラルネットワークやトランスフォーマーといったディープラーニングモデルは、表データで強力なパフォーマンスを実現する一方で、アクセシビリティとスケーラビリティを制限するために、広範なデータの前処理、チューニング、リソースが必要になる。
本研究は,表データのための構造化状態空間モデル(SSM)であるMambaTabに基づく革新的なアプローチを開発する。
SSMは、長距離依存を持つデータから効率的な表現を効率的に抽出する能力を持つ。
MambaTabは、テーブル上のエンドツーエンドの教師あり学習に、新興のSSM亜種であるMambaを利用している。
最先端のベースラインと比較して、mambatabは、様々なベンチマークデータセットで実証的に検証されるように、パラメータと最小限のプリプロセッシングを必要とするが、優れたパフォーマンスを提供する。
MambaTabの効率性、スケーラビリティ、一般化可能性、予測的ゲインは、より広範な実用的なアプリケーションを実現することを約束する多種多様な表データのための軽量な"アウト・オブ・ボックス"ソリューションであることを示している。
関連論文リスト
- Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - In-Context Data Distillation with TabPFN [11.553950697974825]
In-context data distillation (ICD) は、TabPFNのコンテキストを最適化することでこれらの制約を効果的に除去する新しい手法である。
ICDにより、TabPFNは固定メモリ予算ではるかに大きなデータセットを処理でき、TabPFNの二次メモリの複雑さは向上するが、多くのチューニングステップのコストがかかる。
論文 参考訳(メタデータ) (2024-02-10T15:23:45Z) - SwitchTab: Switched Autoencoders Are Effective Tabular Learners [16.316153704284936]
グラフデータに対する自己教師付き表現手法であるSwitchTabを紹介する。
SwitchTabは、データペア間の相互および正常な機能を分離することで、潜伏した依存関係をキャプチャする。
その結果、微調整によるエンドツーエンド予測タスクにおいて、優れた性能を示した。
そこで我々は,SwitchTabが相互に疎結合で有意な特徴を可視化することで,説明可能な表現を生成する能力を強調した。
論文 参考訳(メタデータ) (2024-01-04T01:05:45Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing
Semi-structured Data for Large Language Model Reasoning [58.11442663694328]
テーブルプロンプトを生成するための多用途前処理ツールボックスとして,TAP4LLMを提案する。
各モジュールにおいて、様々なシナリオで使用されるいくつかの一般的なメソッドを収集し、設計する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Towards Foundation Models for Learning on Tabular Data [19.546701261615368]
我々は,現在のモデルの限界を克服するために,TabFM(Tabular Foundation Models)を提案する。
TabFMは、ベースモデルとして事前訓練された大言語モデル(LLM)を採用し、目的設計の目的を用いて微調整する。
ゼロショットやインコンテキスト推論のような命令追従タスクにおいてTabFMが優れていることを示す。
また,TabFMの限界や可能性についても検討し,より強力なTabFMの開発に向けた今後の研究を刺激し,促進することを目的とする。
論文 参考訳(メタデータ) (2023-10-11T09:37:38Z) - STUNT: Few-shot Tabular Learning with Self-generated Tasks from
Unlabeled Tables [64.0903766169603]
我々は,Unlabeled Tables (STUNT) からの自己生成タスクを作成した,数発のセミ教師付き学習のためのフレームワークを提案する。
私たちのキーとなるアイデアは、ランダムに選択された列をターゲットラベルとして扱うことで、多様なショットタスクを自己生成することです。
次に、メタラーニング手法を用いて、構築されたタスクで一般化可能な知識を学習する。
論文 参考訳(メタデータ) (2023-03-02T02:37:54Z) - Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。
我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:39:36Z) - PTab: Using the Pre-trained Language Model for Modeling Tabular Data [5.791972449406902]
近年の研究では、ニューラルネットワークモデルがタブラルデータの文脈表現の学習に有効であることが示されている。
本稿では,事前学習言語モデルを用いて,タブラルデータをモデル化する新しいフレームワークPTabを提案する。
提案手法は,最先端のベースラインに比べて,教師付き設定における平均AUCスコアが向上した。
論文 参考訳(メタデータ) (2022-09-15T08:58:42Z) - Transfer Learning with Deep Tabular Models [66.67017691983182]
上流データにより、グラフニューラルネットワークはGBDTモデルよりも決定的な優位性を示す。
そこで本研究では,表在化学習のための現実的な診断ベンチマークを提案する。
上流と下流の特徴セットが異なる場合の擬似特徴法を提案する。
論文 参考訳(メタデータ) (2022-06-30T14:24:32Z) - SubTab: Subsetting Features of Tabular Data for Self-Supervised
Representation Learning [5.5616364225463055]
私たちはTabular Data(SubTab)のサブセット機能である新しいフレームワークを紹介します。
本稿では,タブラルデータ(SubTab)のサブセット機能である新しいフレームワークを提案する。
我々は、自動エンコーダ設定で、その機能の一部分からデータを再構成することで、その基盤となる表現をよりよく捉えることができると論じている。
論文 参考訳(メタデータ) (2021-10-08T20:11:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。