論文の概要: TransTab: Learning Transferable Tabular Transformers Across Tables
- arxiv url: http://arxiv.org/abs/2205.09328v1
- Date: Thu, 19 May 2022 05:34:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-21 05:46:41.579499
- Title: TransTab: Learning Transferable Tabular Transformers Across Tables
- Title(参考訳): TransTab: テーブル間のトランスフォーマを学習する
- Authors: Zifeng Wang, Jimeng Sun
- Abstract要約: タブラルデータ(またはテーブル)は機械学習(ML)で最も広く使われているデータ形式である
異なる列の異なるテーブルを マージするには 重いデータクリーニングが必要です
TransTabは各サンプル(テーブル内の行)を一般化可能な埋め込みベクトルに変換する。
- 参考スコア(独自算出の注目度): 42.859662256134584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tabular data (or tables) are the most widely used data format in machine
learning (ML). However, ML models often assume the table structure keeps fixed
in training and testing. Before ML modeling, heavy data cleaning is required to
merge disparate tables with different columns. This preprocessing often incurs
significant data waste (e.g., removing unmatched columns and samples). How to
learn ML models from multiple tables with partially overlapping columns? How to
incrementally update ML models as more columns become available over time? Can
we leverage model pretraining on multiple distinct tables? How to train an ML
model which can predict on an unseen table?
To answer all those questions, we propose to relax fixed table structures by
introducing a Transferable Tabular Transformer (TransTab) for tables. The goal
of TransTab is to convert each sample (a row in the table) to a generalizable
embedding vector, and then apply stacked transformers for feature encoding. One
methodology insight is combining column description and table cells as the raw
input to a gated transformer model. The other insight is to introduce
supervised and self-supervised pretraining to improve model performance. We
compare TransTab with multiple baseline methods on diverse benchmark datasets
and five oncology clinical trial datasets. Overall, TransTab ranks 1.00, 1.00,
1.78 out of 12 methods in supervised learning, feature incremental learning,
and transfer learning scenarios, respectively; and the proposed pretraining
leads to 2.3\% AUC lift on average over the supervised learning.}
- Abstract(参考訳): 表データ(または表)は、機械学習(ml)で最も広く使われているデータフォーマットである。
しかしながら、mlモデルは、しばしば、テーブル構造がトレーニングとテストで固定されていると仮定する。
MLモデリングの前には、異なる列のテーブルをマージするために、重いデータクリーニングが必要である。
この前処理は、しばしば重要なデータムダを引き起こす(例えば、未整合カラムやサンプルを取り除く)。
部分的に重なる列を持つ複数のテーブルからMLモデルを学ぶには?
より多くの列が使えるようになるにつれて、MLモデルをインクリメンタルに更新する方法?
複数の異なるテーブルでモデルの事前トレーニングを活用できますか?
目に見えないテーブルで予測できるMLモデルをトレーニングする方法?
これらの質問に答えるために,テーブルにトランスファー可能な表型トランスフォーマ(transtab)を導入することで,固定テーブル構造を緩和する。
transtabの目標は、各サンプル(テーブルの行)を一般化可能な埋め込みベクトルに変換し、特徴エンコーディングにスタックトランスを適用することである。
一つの方法論の洞察は、列記述とテーブルセルをゲートトランスフォーマモデルへの生入力として組み合わせることである。
もうひとつの洞察は、モデルパフォーマンスを改善するために、教師付きおよび自己教師付き事前トレーニングを導入することだ。
多様なベンチマークデータセットと5つのオンコロジー臨床試験データセットを用いて,TransTabと複数のベースライン手法を比較した。
総じて、transtabは教師付き学習の12つの方法のうち1.00, 1.00, 1.78をランク付けし、特徴量増加学習、転校学習のシナリオをそれぞれランク付けした。
}
関連論文リスト
- Deep Learning with Tabular Data: A Self-supervised Approach [0.0]
本研究では,自己指導型学習手法を用いた。
目的は、分類的特徴と数値的特徴の最も効果的なTabTransformerモデル表現を見つけることである。
この研究は、TabTransformerモデルの様々なバリエーションを作成することによって、新しいアプローチを提示している。
論文 参考訳(メタデータ) (2024-01-26T23:12:41Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing
Semi-structured Data for Large Language Model Reasoning [58.11442663694328]
テーブルプロンプトを生成するための多用途前処理ツールボックスとして,TAP4LLMを提案する。
各モジュールにおいて、様々なシナリオで使用されるいくつかの一般的なメソッドを収集し、設計する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Testing the Limits of Unified Sequence to Sequence LLM Pretraining on
Diverse Table Data Tasks [2.690048852269647]
本研究では、770Mから11Bのシーケンスからシーケンスモデルにスケールする際のテーブル特定事前学習に対する統一的なアプローチの利点について検討する。
我々の研究は、770Mから11Bのシーケンスからシーケンスモデルにスケールする際、テーブル固有の事前訓練に対する統一的なアプローチの利点を研究する最初の試みである。
論文 参考訳(メタデータ) (2023-10-01T21:06:15Z) - Retrieval-Based Transformer for Table Augmentation [14.460363647772745]
我々は、自動データラングリングに対する新しいアプローチを導入する。
本研究の目的は,行数や列数,データ計算などのテーブル拡張タスクに対処することである。
我々のモデルは、教師付き統計手法と最先端のトランスフォーマーベースモデルの両方より一貫して、実質的に優れています。
論文 参考訳(メタデータ) (2023-06-20T18:51:21Z) - XTab: Cross-table Pretraining for Tabular Transformers [29.419276738753968]
XTabは、さまざまなドメインのデータセット上の表型トランスフォーマーのクロステーブル事前トレーニングのためのフレームワークである。
XTabは、複数の表型変換器の一般化性、学習速度、性能を一貫して向上させることを示す。
回帰、二分法、多クラス分類といった様々なタスクにおいて、最先端の表層深層学習モデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-05-10T12:17:52Z) - TabRet: Pre-training Transformer-based Tabular Models for Unseen Columns [12.139158398361866]
TabRetは、事前トレーニングで見えない列を含む下流タスクで動作するように設計されている。
実験では、TabRetを多数の公衆衛生調査で事前訓練し、医療における分類タスクを微調整した。
さらに,プレトレーニング中のカラムの再起動およびランダムシャッフル増大が,性能向上に寄与することを示した。
論文 参考訳(メタデータ) (2023-03-28T06:03:41Z) - OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z) - TCN: Table Convolutional Network for Web Table Interpretation [52.32515851633981]
テーブル内情報とテーブル間情報の両方を考慮した新しいテーブル表現学習手法を提案する。
カラムタイプ予測ではf1の4.8%、カラム対関係予測ではf1の4.1%で競合ベースラインを上回ることができる。
論文 参考訳(メタデータ) (2021-02-17T02:18:10Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。