論文の概要: TabMDA: Tabular Manifold Data Augmentation for Any Classifier using Transformers with In-context Subsetting
- arxiv url: http://arxiv.org/abs/2406.01805v1
- Date: Mon, 3 Jun 2024 21:51:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 20:42:35.618877
- Title: TabMDA: Tabular Manifold Data Augmentation for Any Classifier using Transformers with In-context Subsetting
- Title(参考訳): TabMDA: In-context Subsetting を用いた変換器を用いた任意の分類器に対するタブラルマニフォールドデータ拡張
- Authors: Andrei Margeloiu, Adrián Bazaga, Nikola Simidjievski, Pietro Liò, Mateja Jamnik,
- Abstract要約: TabMDAは、表データの多様体データ拡張のための新しい方法である。
これは、TabPFNのような事前訓練されたインコンテキストモデルを使用して、データを多様体空間にマッピングする。
本研究では,TabMDAが事前学習したテキスト内モデルの情報を有効活用し,下流の分類器の性能を向上させる方法を示す。
- 参考スコア(独自算出の注目度): 23.461204546005387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular data is prevalent in many critical domains, yet it is often challenging to acquire in large quantities. This scarcity usually results in poor performance of machine learning models on such data. Data augmentation, a common strategy for performance improvement in vision and language tasks, typically underperforms for tabular data due to the lack of explicit symmetries in the input space. To overcome this challenge, we introduce TabMDA, a novel method for manifold data augmentation on tabular data. This method utilises a pre-trained in-context model, such as TabPFN, to map the data into a manifold space. TabMDA performs label-invariant transformations by encoding the data multiple times with varied contexts. This process explores the manifold of the underlying in-context models, thereby enlarging the training dataset. TabMDA is a training-free method, making it applicable to any classifier. We evaluate TabMDA on five standard classifiers and observe significant performance improvements across various tabular datasets. Our results demonstrate that TabMDA provides an effective way to leverage information from pre-trained in-context models to enhance the performance of downstream classifiers.
- Abstract(参考訳): タブラルデータは多くの臨界領域で広く使われているが、大量に取得することはしばしば困難である。
この不足は、通常、そのようなデータ上での機械学習モデルの性能の低下をもたらす。
データ拡張(Data Augmentation)は、視覚と言語タスクのパフォーマンス向上のための一般的な戦略であり、通常、入力空間に明示的な対称性が欠如しているため、表形式のデータではパフォーマンスが低下する。
この課題を克服するために,表データの多様体データ拡張法であるTabMDAを導入する。
この方法は、TabPFNのような事前訓練されたインコンテキストモデルを使用して、データを多様体空間にマッピングする。
TabMDAは、さまざまなコンテキストでデータを複数回エンコードすることで、ラベル不変変換を実行する。
このプロセスは、基礎となるインコンテキストモデルの多様体を探索し、トレーニングデータセットを拡大する。
TabMDAはトレーニング不要のメソッドであり、任意の分類器に適用できる。
我々は,5つの標準分類器上でTabMDAを評価し,様々な表付きデータセット間での大幅な性能向上を観察した。
この結果から,TabMDAは,事前学習したテキスト内モデルの情報を有効活用し,下流の分類器の性能を向上させることができることを示した。
関連論文リスト
- A Closer Look at Deep Learning on Tabular Data [52.50778536274327]
タブラルデータは、機械学習の様々な領域で広く使われている。
Deep Neural Network(DNN)ベースの手法は、ツリーベースに匹敵する有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-07-01T04:24:07Z) - TabReD: A Benchmark of Tabular Machine Learning in-the-Wild [30.922069185335246]
機械学習の学術ベンチマークでは、業界グレードのデータセットが不足していることが示される。
幅広いドメインをカバーする8つの業界グレードデータセットの集合であるTabReDを紹介する。
時間に基づくデータ分割の評価は、学術ベンチマークにおいてより一般的なランダム分割の評価と比較して、異なる手法のランク付けにつながることを示す。
論文 参考訳(メタデータ) (2024-06-27T17:55:31Z) - Interpretable Machine Learning for TabPFN [5.012821694203072]
TabPFNモデルは、様々な分類タスクで最先端のパフォーマンスを達成することができる。
モデルのユニークな性質を利用することで、我々の適応はより効率的な計算を可能にします。
論文 参考訳(メタデータ) (2024-03-16T13:35:15Z) - Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - TuneTables: Context Optimization for Scalable Prior-Data Fitted Networks [90.00817095558094]
我々は,事前データ対応ネットワーク(PFN)のコンテキスト最適化手法を開発した。
PFNは、事前学習とコンテキスト内学習を利用して、1つのフォワードパスで新しいタスクの強力なパフォーマンスを達成する。
我々は,大規模データセットをより小さな学習コンテキストに圧縮する新しいプロンプトチューニング戦略であるTuneTablesを提案する。
論文 参考訳(メタデータ) (2024-02-17T00:02:23Z) - Deep Learning with Tabular Data: A Self-supervised Approach [0.0]
本研究では,自己指導型学習手法を用いた。
目的は、分類的特徴と数値的特徴の最も効果的なTabTransformerモデル表現を見つけることである。
この研究は、TabTransformerモデルの様々なバリエーションを作成することによって、新しいアプローチを提示している。
論文 参考訳(メタデータ) (2024-01-26T23:12:41Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - PTab: Using the Pre-trained Language Model for Modeling Tabular Data [5.791972449406902]
近年の研究では、ニューラルネットワークモデルがタブラルデータの文脈表現の学習に有効であることが示されている。
本稿では,事前学習言語モデルを用いて,タブラルデータをモデル化する新しいフレームワークPTabを提案する。
提案手法は,最先端のベースラインに比べて,教師付き設定における平均AUCスコアが向上した。
論文 参考訳(メタデータ) (2022-09-15T08:58:42Z) - DIVA: Dataset Derivative of a Learning Task [108.18912044384213]
本稿では,データセットに関する学習課題の微分を計算する手法を提案する。
学習タスクは、トレーニングセットから検証エラーまでの関数であり、トレーニングされたディープニューラルネットワーク(DNN)で表現することができる。
は、トレーニングされたモデルを中心に計算され、各トレーニングサンプルの重みの外れ値がバリデーションエラーにどのように影響するかを知らせる線形演算子である。
論文 参考訳(メタデータ) (2021-11-18T16:33:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。