論文の概要: TabMDA: Tabular Manifold Data Augmentation for Any Classifier using Transformers with In-context Subsetting
- arxiv url: http://arxiv.org/abs/2406.01805v2
- Date: Mon, 29 Jul 2024 15:08:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 22:58:37.460290
- Title: TabMDA: Tabular Manifold Data Augmentation for Any Classifier using Transformers with In-context Subsetting
- Title(参考訳): TabMDA: In-context Subsetting を用いた変換器を用いた任意の分類器に対するタブラルマニフォールドデータ拡張
- Authors: Andrei Margeloiu, Adrián Bazaga, Nikola Simidjievski, Pietro Liò, Mateja Jamnik,
- Abstract要約: TabMDAは、表データの多様体データ拡張のための新しい方法である。
これは、TabPFNのような事前訓練されたインコンテキストモデルを利用して、データを埋め込みスペースにマッピングする。
我々は,TabMDAを5つの標準分類器上で評価し,各種データセット間での大幅な性能向上を観察した。
- 参考スコア(独自算出の注目度): 23.461204546005387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular data is prevalent in many critical domains, yet it is often challenging to acquire in large quantities. This scarcity usually results in poor performance of machine learning models on such data. Data augmentation, a common strategy for performance improvement in vision and language tasks, typically underperforms for tabular data due to the lack of explicit symmetries in the input space. To overcome this challenge, we introduce TabMDA, a novel method for manifold data augmentation on tabular data. This method utilises a pre-trained in-context model, such as TabPFN, to map the data into an embedding space. TabMDA performs label-invariant transformations by encoding the data multiple times with varied contexts. This process explores the learned embedding space of the underlying in-context models, thereby enlarging the training dataset. TabMDA is a training-free method, making it applicable to any classifier. We evaluate TabMDA on five standard classifiers and observe significant performance improvements across various tabular datasets. Our results demonstrate that TabMDA provides an effective way to leverage information from pre-trained in-context models to enhance the performance of downstream classifiers. Code is available at https://github.com/AdrianBZG/TabMDA.
- Abstract(参考訳): タブラルデータは多くの臨界領域で広く使われているが、大量に取得することはしばしば困難である。
この不足は、通常、そのようなデータ上での機械学習モデルの性能の低下をもたらす。
データ拡張(Data Augmentation)は、視覚と言語タスクのパフォーマンス向上のための一般的な戦略であり、通常、入力空間に明示的な対称性が欠如しているため、表形式のデータではパフォーマンスが低下する。
この課題を克服するために,表データの多様体データ拡張法であるTabMDAを導入する。
この方法は、TabPFNのような事前訓練されたインコンテキストモデルを使用して、データを埋め込み空間にマッピングする。
TabMDAは、さまざまなコンテキストでデータを複数回エンコードすることで、ラベル不変変換を実行する。
このプロセスは、基礎となるコンテキスト内モデルの学習された埋め込み空間を探索し、トレーニングデータセットを拡大する。
TabMDAはトレーニング不要のメソッドであり、任意の分類器に適用できる。
我々は,5つの標準分類器上でTabMDAを評価し,様々な表付きデータセット間での大幅な性能向上を観察した。
この結果から,TabMDAは,事前学習したテキスト内モデルの情報を有効活用し,下流の分類器の性能を向上させることができることを示した。
コードはhttps://github.com/AdrianBZG/TabMDAで入手できる。
関連論文リスト
- TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - A Closer Look at Deep Learning on Tabular Data [52.50778536274327]
タブラルデータは、機械学習の様々な領域で広く使われている。
Deep Neural Network(DNN)ベースの手法は、ツリーベースに匹敵する有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-07-01T04:24:07Z) - Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - In-Context Data Distillation with TabPFN [11.553950697974825]
In-context data distillation (ICD) は、TabPFNのコンテキストを最適化することでこれらの制約を効果的に除去する新しい手法である。
ICDにより、TabPFNは固定メモリ予算ではるかに大きなデータセットを処理でき、TabPFNの二次メモリの複雑さは向上するが、多くのチューニングステップのコストがかかる。
論文 参考訳(メタデータ) (2024-02-10T15:23:45Z) - Deep Learning with Tabular Data: A Self-supervised Approach [0.0]
本研究では,自己指導型学習手法を用いた。
目的は、分類的特徴と数値的特徴の最も効果的なTabTransformerモデル表現を見つけることである。
この研究は、TabTransformerモデルの様々なバリエーションを作成することによって、新しいアプローチを提示している。
論文 参考訳(メタデータ) (2024-01-26T23:12:41Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Rethinking Data Augmentation for Tabular Data in Deep Learning [0.0]
タブラルデータは機械学習(ML)で最も広く使われているデータ形式である
近年の文献では、トランスフォーマーベースのモデルによる自己教師型学習は、ツリーベースの手法よりも優れていることが報告されている。
論文 参考訳(メタデータ) (2023-05-17T15:46:03Z) - A Memory Transformer Network for Incremental Learning [64.0410375349852]
本研究では,モデルが学習する時間とともに,新しいデータクラスが観察される学習環境であるクラスインクリメンタルラーニングについて検討する。
素直な問題定式化にもかかわらず、クラス増分学習への分類モデルの素直な適用は、これまで見られたクラスの「破滅的な忘れ込み」をもたらす。
これは、過去のデータのサブセットをメモリバンクに保存し、将来のタスクをトレーニングする際の忘れの防止にそれを活用することで、破滅的な忘れの問題を克服するものだ。
論文 参考訳(メタデータ) (2022-10-10T08:27:28Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - PTab: Using the Pre-trained Language Model for Modeling Tabular Data [5.791972449406902]
近年の研究では、ニューラルネットワークモデルがタブラルデータの文脈表現の学習に有効であることが示されている。
本稿では,事前学習言語モデルを用いて,タブラルデータをモデル化する新しいフレームワークPTabを提案する。
提案手法は,最先端のベースラインに比べて,教師付き設定における平均AUCスコアが向上した。
論文 参考訳(メタデータ) (2022-09-15T08:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。