論文の概要: MET: Masked Encoding for Tabular Data
- arxiv url: http://arxiv.org/abs/2206.08564v1
- Date: Fri, 17 Jun 2022 05:51:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 12:55:40.751242
- Title: MET: Masked Encoding for Tabular Data
- Title(参考訳): met: 表データのためのマスクエンコーディング
- Authors: Kushal Majmundar, Sachin Goyal, Praneeth Netrapalli, Prateek Jain
- Abstract要約: Masked SSL for Tabular Data (MET)は、ビジョンSSLのための人気のあるMAEアプローチに基づいている。
METは5つの多様なデータセット上で、新しい最先端技術(SOTA)を実現する。
私たちは、慎重に設計されたシンプルなデータセットの実験を通じて、METの作業にもっと光を当てました。
- 参考スコア(独自算出の注目度): 29.24328720103911
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We consider the task of self-supervised representation learning (SSL) for
tabular data: tabular-SSL. Typical contrastive learning based SSL methods
require instance-wise data augmentations which are difficult to design for
unstructured tabular data. Existing tabular-SSL methods design such
augmentations in a relatively ad-hoc fashion and can fail to capture the
underlying data manifold. Instead of augmentations based approaches for
tabular-SSL, we propose a new reconstruction based method, called Masked
Encoding for Tabular Data (MET), that does not require augmentations. MET is
based on the popular MAE approach for vision-SSL [He et al., 2021] and uses two
key ideas: (i) since each coordinate in a tabular dataset has a distinct
meaning, we need to use separate representations for all coordinates, and (ii)
using an adversarial reconstruction loss in addition to the standard one.
Empirical results on five diverse tabular datasets show that MET achieves a new
state of the art (SOTA) on all of these datasets and improves up to 9% over
current SOTA methods. We shed more light on the working of MET via experiments
on carefully designed simple datasets.
- Abstract(参考訳): 表型データに対する自己教師型表現学習(SSL)の課題を考察する。
典型的なコントラスト学習ベースのsslメソッドは、非構造化表型データの設計が難しいインスタンス毎のデータ拡張を必要とする。
既存のタブ形式のSSLメソッドは、そのような拡張を比較的アドホックな方法で設計し、基礎となるデータ多様体をキャプチャできない可能性がある。
タブ型SSLのための拡張ベースのアプローチの代わりに、拡張を必要としないMasked Encoding for Tabular Data (MET)と呼ばれる新しい再構築ベースの手法を提案する。
METは、ビジョンSSL(He et al., 2021)の人気のあるMAEアプローチに基づいており、2つの主要なアイデアを使っている。
(i)表型データセットの各座標には明確な意味があるため、すべての座標に対して別々の表現を用いる必要がある。
(ii)標準的なものに加えて、逆さまの復元損失を用いる。
5つの多彩な表付きデータセットの実証結果は、METがこれらのデータセットのすべてで新たなSOTA(State of the art)を実現し、現在のSOTAメソッドよりも9%改善していることを示している。
私たちは、注意深く設計された単純なデータセットに関する実験を通じて、metの作業にさらに光を当てた。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - A Closer Look at Deep Learning on Tabular Data [52.50778536274327]
タブラルデータは、機械学習の様々な領域で広く使われている。
Deep Neural Network(DNN)ベースの手法は、ツリーベースに匹敵する有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-07-01T04:24:07Z) - A Survey on Self-Supervised Learning for Non-Sequential Tabular Data [15.796140543132196]
自己教師付き学習(SSL)は、様々な領域の最先端モデルに取り入れられている。
この調査は、非シーケンスデータ(SSL4NS-TD)におけるSSLの最近の進歩と課題を体系的にレビューし、要約することを目的としている。
まず、NS-TDの形式的定義を提示し、関連する研究との相関を明らかにする。その後、これらのアプローチは予測学習、コントラスト学習、ハイブリッド学習の3つのグループに分類され、それぞれの方向における代表的手法のモチベーションと強みがある。
論文 参考訳(メタデータ) (2024-02-02T08:17:41Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - Tabular Few-Shot Generalization Across Heterogeneous Feature Spaces [43.67453625260335]
異種特徴空間を持つデータセット間での知識共有を含む数ショット学習のための新しいアプローチを提案する。
FLATはデータセットとその個々の列の低次元埋め込みを学習し、それまで見つからなかったデータセットへの知識伝達と一般化を容易にする。
デコーダネットワークは、グラフ注意ネットワークとして実装された予測対象ネットワークをパラメータ化して、表形式のデータセットの不均一性に対応する。
論文 参考訳(メタデータ) (2023-11-16T17:45:59Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - PTab: Using the Pre-trained Language Model for Modeling Tabular Data [5.791972449406902]
近年の研究では、ニューラルネットワークモデルがタブラルデータの文脈表現の学習に有効であることが示されている。
本稿では,事前学習言語モデルを用いて,タブラルデータをモデル化する新しいフレームワークPTabを提案する。
提案手法は,最先端のベースラインに比べて,教師付き設定における平均AUCスコアが向上した。
論文 参考訳(メタデータ) (2022-09-15T08:58:42Z) - Pseudo-Labeling Based Practical Semi-Supervised Meta-Training for Few-Shot Learning [93.63638405586354]
擬似ラベルベースメタラーニング(PLML)という,シンプルで効果的なメタトレーニングフレームワークを提案する。
まず、一般的な半教師付き学習(SSL)を用いて分類器を訓練し、ラベルなしデータの擬似ラベルを得る。
ラベル付きおよび擬似ラベル付きデータから数ショットのタスクを構築し、特徴の平滑化と雑音抑圧を伴う新しい微調整法を設計する。
論文 参考訳(メタデータ) (2022-07-14T10:53:53Z) - SubTab: Subsetting Features of Tabular Data for Self-Supervised
Representation Learning [5.5616364225463055]
私たちはTabular Data(SubTab)のサブセット機能である新しいフレームワークを紹介します。
本稿では,タブラルデータ(SubTab)のサブセット機能である新しいフレームワークを提案する。
我々は、自動エンコーダ設定で、その機能の一部分からデータを再構成することで、その基盤となる表現をよりよく捉えることができると論じている。
論文 参考訳(メタデータ) (2021-10-08T20:11:09Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。