論文の概要: Rethinking Data Augmentation for Tabular Data in Deep Learning
- arxiv url: http://arxiv.org/abs/2305.10308v2
- Date: Mon, 22 May 2023 13:02:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 02:13:11.368216
- Title: Rethinking Data Augmentation for Tabular Data in Deep Learning
- Title(参考訳): 深層学習における表データ拡張の再考
- Authors: Soma Onishi and Shoya Meguro
- Abstract要約: タブラルデータは機械学習(ML)で最も広く使われているデータ形式である
近年の文献では、トランスフォーマーベースのモデルによる自己教師型学習は、ツリーベースの手法よりも優れていることが報告されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular data is the most widely used data format in machine learning (ML).
While tree-based methods outperform DL-based methods in supervised learning,
recent literature reports that self-supervised learning with Transformer-based
models outperforms tree-based methods. In the existing literature on
self-supervised learning for tabular data, contrastive learning is the
predominant method. In contrastive learning, data augmentation is important to
generate different views. However, data augmentation for tabular data has been
difficult due to the unique structure and high complexity of tabular data. In
addition, three main components are proposed together in existing methods:
model structure, self-supervised learning methods, and data augmentation.
Therefore, previous works have compared the performance without comprehensively
considering these components, and it is not clear how each component affects
the actual performance.
In this study, we focus on data augmentation to address these issues. We
propose a novel data augmentation method, $\textbf{M}$ask $\textbf{T}$oken
$\textbf{R}$eplacement ($\texttt{MTR}$), which replaces the mask token with a
portion of each tokenized column; $\texttt{MTR}$ takes advantage of the
properties of Transformer, which is becoming the predominant DL-based
architecture for tabular data, to perform data augmentation for each column
embedding. Through experiments with 13 diverse public datasets in both
supervised and self-supervised learning scenarios, we show that $\texttt{MTR}$
achieves competitive performance against existing data augmentation methods and
improves model performance. In addition, we discuss specific scenarios in which
$\texttt{MTR}$ is most effective and identify the scope of its application. The
code is available at https://github.com/somaonishi/MTR/.
- Abstract(参考訳): タブラルデータは機械学習(ML)で最も広く使われているデータフォーマットである。
最近の文献では、ツリーベース手法はDLベースの学習法より優れているが、トランスフォーマーベースのモデルを用いた自己教師型学習は、ツリーベース手法より優れていると報告されている。
表データに対する自己教師あり学習に関する既存の文献では,コントラスト学習が主流である。
対照的に、データ拡張は異なるビューを生成するために重要である。
しかし,表データの一意な構造と複雑性のため,表データに対するデータ拡張は困難であった。
さらに、モデル構造、自己教師付き学習方法、データ拡張という3つの要素を既存手法で組み合わせて提案する。
したがって、これらのコンポーネントを包括的に考慮せずにパフォーマンスを比較し、各コンポーネントが実際のパフォーマンスにどのように影響するかは明らかになっていない。
本研究では,これらの課題に対処するために,データ拡張に注目する。
マスクトークンを各トークン列の一部に置き換える新しいデータ拡張法である$\textbf{M}$ask $\textbf{T}$oken $\textbf{R}$eplacement ($\texttt{MTR}$)を提案する。
教師付きおよび自己教師付き学習シナリオにおける13の多様な公開データセットを用いた実験を通じて、$\texttt{mtr}$が既存のデータ拡張手法に対する競合性能を達成し、モデルパフォーマンスを向上させることを示した。
さらに、$\texttt{MTR}$が最も効果的である特定のシナリオについて議論し、アプリケーションのスコープを特定します。
コードはhttps://github.com/somaonishi/MTR/で入手できる。
関連論文リスト
- $\texttt{dattri}$: A Library for Efficient Data Attribution [7.803566162554017]
データ属性法は、個々のトレーニングサンプルが人工知能(AI)モデルの予測に与える影響を定量化することを目的としている。
新たなデータ属性メソッドが開発されているにもかかわらず、さまざまなデータ属性メソッドの開発、ベンチマーク、デプロイを容易にする包括的なライブラリが欠如している。
本稿では、上記のニーズに対処するオープンソースのデータ属性ライブラリである、$textttdattri$を紹介します。
論文 参考訳(メタデータ) (2024-10-06T17:18:09Z) - TabEBM: A Tabular Data Augmentation Method with Distinct Class-Specific Energy-Based Models [10.88959673845634]
TabEBMはEnergy-Based Models (EBMs)を用いたクラス条件生成法である
実験の結果,TabEBMは既存の手法よりも高品質で統計的忠実度の高い合成データを生成することがわかった。
論文 参考訳(メタデータ) (2024-09-24T14:25:59Z) - Tabular Transfer Learning via Prompting LLMs [52.96022335067357]
大規模言語モデル(LLM)を用いたラベル付き(あるいは異種)ソースデータを利用した新しいフレームワークPrompt to Transfer (P2T)を提案する。
P2Tは、ターゲットタスク機能と強く相関しているソースデータセットの列の特徴を特定し、ターゲットタスクに関連する例を作成し、プロンプトの擬似宣言を生成する。
論文 参考訳(メタデータ) (2024-08-09T11:30:52Z) - A Closer Look at Deep Learning on Tabular Data [52.50778536274327]
タブラルデータは、機械学習の様々な領域で広く使われている。
Deep Neural Network(DNN)ベースの手法は、ツリーベースに匹敵する有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-07-01T04:24:07Z) - TabMDA: Tabular Manifold Data Augmentation for Any Classifier using Transformers with In-context Subsetting [23.461204546005387]
TabMDAは、表データの多様体データ拡張のための新しい方法である。
これは、TabPFNのような事前訓練されたインコンテキストモデルを利用して、データを埋め込みスペースにマッピングする。
我々は,TabMDAを5つの標準分類器上で評価し,各種データセット間での大幅な性能向上を観察した。
論文 参考訳(メタデータ) (2024-06-03T21:51:13Z) - Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - PTab: Using the Pre-trained Language Model for Modeling Tabular Data [5.791972449406902]
近年の研究では、ニューラルネットワークモデルがタブラルデータの文脈表現の学習に有効であることが示されている。
本稿では,事前学習言語モデルを用いて,タブラルデータをモデル化する新しいフレームワークPTabを提案する。
提案手法は,最先端のベースラインに比べて,教師付き設定における平均AUCスコアが向上した。
論文 参考訳(メタデータ) (2022-09-15T08:58:42Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - SubTab: Subsetting Features of Tabular Data for Self-Supervised
Representation Learning [5.5616364225463055]
私たちはTabular Data(SubTab)のサブセット機能である新しいフレームワークを紹介します。
本稿では,タブラルデータ(SubTab)のサブセット機能である新しいフレームワークを提案する。
我々は、自動エンコーダ設定で、その機能の一部分からデータを再構成することで、その基盤となる表現をよりよく捉えることができると論じている。
論文 参考訳(メタデータ) (2021-10-08T20:11:09Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。