論文の概要: TransTab: Learning Transferable Tabular Transformers Across Tables
- arxiv url: http://arxiv.org/abs/2205.09328v1
- Date: Thu, 19 May 2022 05:34:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-21 05:46:41.579499
- Title: TransTab: Learning Transferable Tabular Transformers Across Tables
- Title(参考訳): TransTab: テーブル間のトランスフォーマを学習する
- Authors: Zifeng Wang, Jimeng Sun
- Abstract要約: タブラルデータ(またはテーブル)は機械学習(ML)で最も広く使われているデータ形式である
異なる列の異なるテーブルを マージするには 重いデータクリーニングが必要です
TransTabは各サンプル(テーブル内の行)を一般化可能な埋め込みベクトルに変換する。
- 参考スコア(独自算出の注目度): 42.859662256134584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tabular data (or tables) are the most widely used data format in machine
learning (ML). However, ML models often assume the table structure keeps fixed
in training and testing. Before ML modeling, heavy data cleaning is required to
merge disparate tables with different columns. This preprocessing often incurs
significant data waste (e.g., removing unmatched columns and samples). How to
learn ML models from multiple tables with partially overlapping columns? How to
incrementally update ML models as more columns become available over time? Can
we leverage model pretraining on multiple distinct tables? How to train an ML
model which can predict on an unseen table?
To answer all those questions, we propose to relax fixed table structures by
introducing a Transferable Tabular Transformer (TransTab) for tables. The goal
of TransTab is to convert each sample (a row in the table) to a generalizable
embedding vector, and then apply stacked transformers for feature encoding. One
methodology insight is combining column description and table cells as the raw
input to a gated transformer model. The other insight is to introduce
supervised and self-supervised pretraining to improve model performance. We
compare TransTab with multiple baseline methods on diverse benchmark datasets
and five oncology clinical trial datasets. Overall, TransTab ranks 1.00, 1.00,
1.78 out of 12 methods in supervised learning, feature incremental learning,
and transfer learning scenarios, respectively; and the proposed pretraining
leads to 2.3\% AUC lift on average over the supervised learning.}
- Abstract(参考訳): 表データ(または表)は、機械学習(ml)で最も広く使われているデータフォーマットである。
しかしながら、mlモデルは、しばしば、テーブル構造がトレーニングとテストで固定されていると仮定する。
MLモデリングの前には、異なる列のテーブルをマージするために、重いデータクリーニングが必要である。
この前処理は、しばしば重要なデータムダを引き起こす(例えば、未整合カラムやサンプルを取り除く)。
部分的に重なる列を持つ複数のテーブルからMLモデルを学ぶには?
より多くの列が使えるようになるにつれて、MLモデルをインクリメンタルに更新する方法?
複数の異なるテーブルでモデルの事前トレーニングを活用できますか?
目に見えないテーブルで予測できるMLモデルをトレーニングする方法?
これらの質問に答えるために,テーブルにトランスファー可能な表型トランスフォーマ(transtab)を導入することで,固定テーブル構造を緩和する。
transtabの目標は、各サンプル(テーブルの行)を一般化可能な埋め込みベクトルに変換し、特徴エンコーディングにスタックトランスを適用することである。
一つの方法論の洞察は、列記述とテーブルセルをゲートトランスフォーマモデルへの生入力として組み合わせることである。
もうひとつの洞察は、モデルパフォーマンスを改善するために、教師付きおよび自己教師付き事前トレーニングを導入することだ。
多様なベンチマークデータセットと5つのオンコロジー臨床試験データセットを用いて,TransTabと複数のベースライン手法を比較した。
総じて、transtabは教師付き学習の12つの方法のうち1.00, 1.00, 1.78をランク付けし、特徴量増加学習、転校学習のシナリオをそれぞれランク付けした。
}
関連論文リスト
- Tabular Transfer Learning via Prompting LLMs [52.96022335067357]
大規模言語モデル(LLM)を用いたラベル付き(あるいは異種)ソースデータを利用した新しいフレームワークPrompt to Transfer (P2T)を提案する。
P2Tは、ターゲットタスク機能と強く相関しているソースデータセットの列の特徴を特定し、ターゲットタスクに関連する例を作成し、プロンプトの擬似宣言を生成する。
論文 参考訳(メタデータ) (2024-08-09T11:30:52Z) - Multimodal Table Understanding [26.652797853893233]
直感的な視覚情報を使ってテーブルを直接理解する方法は、より実用的なアプリケーションを開発する上で極めて重要かつ緊急の課題である。
そこで我々は,様々なテーブル関連要求に対して,モデルが正しい応答を生成する必要がある,新しい問題であるマルチモーダルテーブル理解を提案する。
汎用マルチモーダル大言語モデル(MLLM)であるTable-LLaVAを開発した。
論文 参考訳(メタデータ) (2024-06-12T11:27:03Z) - Deep Learning with Tabular Data: A Self-supervised Approach [0.0]
本研究では,自己指導型学習手法を用いた。
目的は、分類的特徴と数値的特徴の最も効果的なTabTransformerモデル表現を見つけることである。
この研究は、TabTransformerモデルの様々なバリエーションを作成することによって、新しいアプローチを提示している。
論文 参考訳(メタデータ) (2024-01-26T23:12:41Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Retrieval-Based Transformer for Table Augmentation [14.460363647772745]
我々は、自動データラングリングに対する新しいアプローチを導入する。
本研究の目的は,行数や列数,データ計算などのテーブル拡張タスクに対処することである。
我々のモデルは、教師付き統計手法と最先端のトランスフォーマーベースモデルの両方より一貫して、実質的に優れています。
論文 参考訳(メタデータ) (2023-06-20T18:51:21Z) - XTab: Cross-table Pretraining for Tabular Transformers [29.419276738753968]
XTabは、さまざまなドメインのデータセット上の表型トランスフォーマーのクロステーブル事前トレーニングのためのフレームワークである。
XTabは、複数の表型変換器の一般化性、学習速度、性能を一貫して向上させることを示す。
回帰、二分法、多クラス分類といった様々なタスクにおいて、最先端の表層深層学習モデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-05-10T12:17:52Z) - TabRet: Pre-training Transformer-based Tabular Models for Unseen Columns [12.139158398361866]
TabRetは、事前トレーニングで見えない列を含む下流タスクで動作するように設計されている。
実験では、TabRetを多数の公衆衛生調査で事前訓練し、医療における分類タスクを微調整した。
さらに,プレトレーニング中のカラムの再起動およびランダムシャッフル増大が,性能向上に寄与することを示した。
論文 参考訳(メタデータ) (2023-03-28T06:03:41Z) - OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。