論文の概要: Rethinking Data Augmentation for Tabular Data in Deep Learning
- arxiv url: http://arxiv.org/abs/2305.10308v2
- Date: Mon, 22 May 2023 13:02:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 02:13:11.368216
- Title: Rethinking Data Augmentation for Tabular Data in Deep Learning
- Title(参考訳): 深層学習における表データ拡張の再考
- Authors: Soma Onishi and Shoya Meguro
- Abstract要約: タブラルデータは機械学習(ML)で最も広く使われているデータ形式である
近年の文献では、トランスフォーマーベースのモデルによる自己教師型学習は、ツリーベースの手法よりも優れていることが報告されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular data is the most widely used data format in machine learning (ML).
While tree-based methods outperform DL-based methods in supervised learning,
recent literature reports that self-supervised learning with Transformer-based
models outperforms tree-based methods. In the existing literature on
self-supervised learning for tabular data, contrastive learning is the
predominant method. In contrastive learning, data augmentation is important to
generate different views. However, data augmentation for tabular data has been
difficult due to the unique structure and high complexity of tabular data. In
addition, three main components are proposed together in existing methods:
model structure, self-supervised learning methods, and data augmentation.
Therefore, previous works have compared the performance without comprehensively
considering these components, and it is not clear how each component affects
the actual performance.
In this study, we focus on data augmentation to address these issues. We
propose a novel data augmentation method, $\textbf{M}$ask $\textbf{T}$oken
$\textbf{R}$eplacement ($\texttt{MTR}$), which replaces the mask token with a
portion of each tokenized column; $\texttt{MTR}$ takes advantage of the
properties of Transformer, which is becoming the predominant DL-based
architecture for tabular data, to perform data augmentation for each column
embedding. Through experiments with 13 diverse public datasets in both
supervised and self-supervised learning scenarios, we show that $\texttt{MTR}$
achieves competitive performance against existing data augmentation methods and
improves model performance. In addition, we discuss specific scenarios in which
$\texttt{MTR}$ is most effective and identify the scope of its application. The
code is available at https://github.com/somaonishi/MTR/.
- Abstract(参考訳): タブラルデータは機械学習(ML)で最も広く使われているデータフォーマットである。
最近の文献では、ツリーベース手法はDLベースの学習法より優れているが、トランスフォーマーベースのモデルを用いた自己教師型学習は、ツリーベース手法より優れていると報告されている。
表データに対する自己教師あり学習に関する既存の文献では,コントラスト学習が主流である。
対照的に、データ拡張は異なるビューを生成するために重要である。
しかし,表データの一意な構造と複雑性のため,表データに対するデータ拡張は困難であった。
さらに、モデル構造、自己教師付き学習方法、データ拡張という3つの要素を既存手法で組み合わせて提案する。
したがって、これらのコンポーネントを包括的に考慮せずにパフォーマンスを比較し、各コンポーネントが実際のパフォーマンスにどのように影響するかは明らかになっていない。
本研究では,これらの課題に対処するために,データ拡張に注目する。
マスクトークンを各トークン列の一部に置き換える新しいデータ拡張法である$\textbf{M}$ask $\textbf{T}$oken $\textbf{R}$eplacement ($\texttt{MTR}$)を提案する。
教師付きおよび自己教師付き学習シナリオにおける13の多様な公開データセットを用いた実験を通じて、$\texttt{mtr}$が既存のデータ拡張手法に対する競合性能を達成し、モデルパフォーマンスを向上させることを示した。
さらに、$\texttt{MTR}$が最も効果的である特定のシナリオについて議論し、アプリケーションのスコープを特定します。
コードはhttps://github.com/somaonishi/MTR/で入手できる。
関連論文リスト
- MambaTab: A Simple Yet Effective Approach for Handling Tabular Data [15.487912830321042]
本研究は,表データのための構造化状態空間モデル(SSM)であるMambaTabに基づく革新的なアプローチを開発する。
MambaTabは、パラメータが大幅に少なく、プリプロセッシングが最小限で、優れたパフォーマンスを提供する。
MambaTabの効率性、スケーラビリティ、一般化可能性、予測的ゲインは、軽量で"アウト・オブ・ザ・ボックス"なソリューションであることを示している。
論文 参考訳(メタデータ) (2024-01-16T22:44:12Z) - Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - GRANDE: Gradient-Based Decision Tree Ensembles for Tabular Data [9.107782510356989]
そこで本研究では,エンドツーエンドの勾配勾配勾配を用いた軸方向決定木アンサンブルの学習手法を提案する。
Grandeはツリーアンサンブルの密度の高い表現に基づいており、ストレートスルー演算子でバックプロパゲーションを使用することができる。
提案手法は,ほとんどのデータセットにおいて,既存の勾配ブースティングおよびディープラーニングフレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-29T10:49:14Z) - PTab: Using the Pre-trained Language Model for Modeling Tabular Data [5.791972449406902]
近年の研究では、ニューラルネットワークモデルがタブラルデータの文脈表現の学習に有効であることが示されている。
本稿では,事前学習言語モデルを用いて,タブラルデータをモデル化する新しいフレームワークPTabを提案する。
提案手法は,最先端のベースラインに比べて,教師付き設定における平均AUCスコアが向上した。
論文 参考訳(メタデータ) (2022-09-15T08:58:42Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - Parsing with Pretrained Language Models, Multiple Datasets, and Dataset
Embeddings [13.097523786733872]
変換器に基づく多言語依存にデータセットを埋め込む2つの手法を比較する。
ベースラインスコアが低い小さなデータセットやデータセットでは,パフォーマンスの向上が最も高いことを確認します。
すべてのデータセットの組み合わせによるトレーニングは、言語関連性に基づいてより小さなクラスタを設計するのと同様である。
論文 参考訳(メタデータ) (2021-12-07T10:47:07Z) - SubTab: Subsetting Features of Tabular Data for Self-Supervised
Representation Learning [5.5616364225463055]
私たちはTabular Data(SubTab)のサブセット機能である新しいフレームワークを紹介します。
本稿では,タブラルデータ(SubTab)のサブセット機能である新しいフレームワークを提案する。
我々は、自動エンコーダ設定で、その機能の一部分からデータを再構成することで、その基盤となる表現をよりよく捉えることができると論じている。
論文 参考訳(メタデータ) (2021-10-08T20:11:09Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - RadixSpline: A Single-Pass Learned Index [84.84747738666263]
RadixSpline(RS)は、データに1回のパスで構築できる学習インデックスです。
RSは2つのパラメータしか持たないにもかかわらず、すべてのデータセットで競合的な結果を達成する。
論文 参考訳(メタデータ) (2020-04-30T01:56:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。