論文の概要: SubTab: Subsetting Features of Tabular Data for Self-Supervised
Representation Learning
- arxiv url: http://arxiv.org/abs/2110.04361v1
- Date: Fri, 8 Oct 2021 20:11:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 15:34:31.851404
- Title: SubTab: Subsetting Features of Tabular Data for Self-Supervised
Representation Learning
- Title(参考訳): SubTab:自己教師付き表現学習のための語彙データのサブセット機能
- Authors: Talip Ucar, Ehsan Hajiramezanali, Lindsay Edwards
- Abstract要約: 私たちはTabular Data(SubTab)のサブセット機能である新しいフレームワークを紹介します。
本稿では,タブラルデータ(SubTab)のサブセット機能である新しいフレームワークを提案する。
我々は、自動エンコーダ設定で、その機能の一部分からデータを再構成することで、その基盤となる表現をよりよく捉えることができると論じている。
- 参考スコア(独自算出の注目度): 5.5616364225463055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning has been shown to be very effective in learning
useful representations, and yet much of the success is achieved in data types
such as images, audio, and text. The success is mainly enabled by taking
advantage of spatial, temporal, or semantic structure in the data through
augmentation. However, such structure may not exist in tabular datasets
commonly used in fields such as healthcare, making it difficult to design an
effective augmentation method, and hindering a similar progress in tabular data
setting. In this paper, we introduce a new framework, Subsetting features of
Tabular data (SubTab), that turns the task of learning from tabular data into a
multi-view representation learning problem by dividing the input features to
multiple subsets. We argue that reconstructing the data from the subset of its
features rather than its corrupted version in an autoencoder setting can better
capture its underlying latent representation. In this framework, the joint
representation can be expressed as the aggregate of latent variables of the
subsets at test time, which we refer to as collaborative inference. Our
experiments show that the SubTab achieves the state of the art (SOTA)
performance of 98.31% on MNIST in tabular setting, on par with CNN-based SOTA
models, and surpasses existing baselines on three other real-world datasets by
a significant margin.
- Abstract(参考訳): 自己教師付き学習は有用な表現の学習に非常に有効であることが示されているが、画像、音声、テキストといったデータ型で多くの成功が達成されている。
この成功は主に、拡張を通じてデータの空間的、時間的、あるいは意味的な構造を活用することで実現される。
しかし、そのような構造は医療などの分野で一般的に使用される表型データセットには存在せず、効果的な拡張方法の設計が困難であり、表型データセットの同様の進歩を妨げる可能性がある。
本稿では,入力特徴を複数のサブセットに分割することにより,表データから学習するタスクを多視点表現学習問題に変換する,表データ(subtab)の機能サブセット化という新しいフレームワークを提案する。
私たちは、オートエンコーダ設定で破損したバージョンではなく、機能のサブセットからデータを再構築することは、その基礎となる潜在表現をよりよく捉えることができると主張している。
このフレームワークでは、ジョイント表現はテスト時にサブセットの潜在変数の集合として表現することができ、これは協調推論(collaborative inference)と呼ばれる。
実験の結果,サブタブはCNNベースのSOTAモデルに匹敵するMNISTの98.31%の性能を達成し,既存の3つの実世界のデータセットのベースラインをかなり上回っていることがわかった。
関連論文リスト
- Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - SwitchTab: Switched Autoencoders Are Effective Tabular Learners [16.316153704284936]
グラフデータに対する自己教師付き表現手法であるSwitchTabを紹介する。
SwitchTabは、データペア間の相互および正常な機能を分離することで、潜伏した依存関係をキャプチャする。
その結果、微調整によるエンドツーエンド予測タスクにおいて、優れた性能を示した。
そこで我々は,SwitchTabが相互に疎結合で有意な特徴を可視化することで,説明可能な表現を生成する能力を強調した。
論文 参考訳(メタデータ) (2024-01-04T01:05:45Z) - Tabular Few-Shot Generalization Across Heterogeneous Feature Spaces [43.67453625260335]
異種特徴空間を持つデータセット間での知識共有を含む数ショット学習のための新しいアプローチを提案する。
FLATはデータセットとその個々の列の低次元埋め込みを学習し、それまで見つからなかったデータセットへの知識伝達と一般化を容易にする。
デコーダネットワークは、グラフ注意ネットワークとして実装された予測対象ネットワークをパラメータ化して、表形式のデータセットの不均一性に対応する。
論文 参考訳(メタデータ) (2023-11-16T17:45:59Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Learning Representations without Compositional Assumptions [79.12273403390311]
本稿では,特徴集合をグラフノードとして表現し,それらの関係を学習可能なエッジとして表現することで,特徴集合の依存関係を学習するデータ駆動型アプローチを提案する。
また,複数のビューから情報を動的に集約するために,より小さな潜在グラフを学習する新しい階層グラフオートエンコーダLEGATOを導入する。
論文 参考訳(メタデータ) (2023-05-31T10:36:10Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - PTab: Using the Pre-trained Language Model for Modeling Tabular Data [5.791972449406902]
近年の研究では、ニューラルネットワークモデルがタブラルデータの文脈表現の学習に有効であることが示されている。
本稿では,事前学習言語モデルを用いて,タブラルデータをモデル化する新しいフレームワークPTabを提案する。
提案手法は,最先端のベースラインに比べて,教師付き設定における平均AUCスコアが向上した。
論文 参考訳(メタデータ) (2022-09-15T08:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。