論文の概要: RPT: Relational Pre-trained Transformer Is Almost All You Need towards
Democratizing Data Preparation
- arxiv url: http://arxiv.org/abs/2012.02469v2
- Date: Wed, 31 Mar 2021 08:28:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-22 20:33:14.222101
- Title: RPT: Relational Pre-trained Transformer Is Almost All You Need towards
Democratizing Data Preparation
- Title(参考訳): RPT:データ準備の民主化に必要なのはリレーショナル・プレトレーニング・トランスフォーマー
- Authors: Nan Tang, Ju Fan, Fangyi Li, Jianhong Tu, Xiaoyong Du, Guoliang Li,
Sam Madden, Mourad Ouzzani
- Abstract要約: 本稿では,クラウド・トゥ・Xモデルのための自動エンコーダ RPT を提案する。
RPTは、双方向エンコーダ(BERTに類似)と左から右への自己回帰(GPTに類似)からなるトランスフォーマーベースの神経翻訳のために事前訓練されている
- 参考スコア(独自算出の注目度): 34.24421000527444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can AI help automate human-easy but computer-hard data preparation tasks that
burden data scientists, practitioners, and crowd workers? We answer this
question by presenting RPT, a denoising auto-encoder for tuple-to-X models (X
could be tuple, token, label, JSON, and so on). RPT is pre-trained for a
tuple-to-tuple model by corrupting the input tuple and then learning a model to
reconstruct the original tuple. It adopts a Transformer-based neural
translation architecture that consists of a bidirectional encoder (similar to
BERT) and a left-to-right autoregressive decoder (similar to GPT), leading to a
generalization of both BERT and GPT. The pre-trained RPT can already support
several common data preparation tasks such as data cleaning, auto-completion
and schema matching. Better still, RPT can be fine-tuned on a wide range of
data preparation tasks, such as value normalization, data transformation, data
annotation, etc. To complement RPT, we also discuss several appealing
techniques such as collaborative training and few-shot learning for entity
resolution, and few-shot learning and NLP question-answering for information
extraction. In addition, we identify a series of research opportunities to
advance the field of data preparation.
- Abstract(参考訳): AIは、データサイエンティスト、実践家、そして群衆労働者に負担を与える、人間にとって簡単なデータ準備作業を自動化するのに役立つだろうか?
RPTは、タプルからXモデル(Xはタプル、トークン、ラベル、JSONなど)のための自動エンコーダです。
RPTは、入力タプルを破損させ、元のタプルを再構築するモデルを学ぶことで、タプルからタプルまでのモデルのために事前訓練される。
このアーキテクチャは、双方向エンコーダ(BERTに類似)と左から右への自己回帰デコーダ(GPTに類似)で構成されるトランスフォーマーベースの神経翻訳アーキテクチャを採用し、BERTとGPTの両方を一般化する。
事前トレーニングされたrptは、データクリーニング、自動補完、スキーママッチングなど、いくつかの一般的なデータ準備タスクをすでにサポートしている。
それでも、rptは、値の正規化、データ変換、データアノテーションなど、幅広いデータ準備タスクで微調整することができる。
rptを補完するために,エンティティ解決のための協調学習や,情報抽出のためのnlp質問応答学習など,いくつかのアピール手法についても検討した。
さらに、データ準備の分野を前進させる一連の研究機会を特定する。
関連論文リスト
- Generalized Regression with Conditional GANs [2.4171019220503402]
本稿では,学習データセットにおける特徴ラベルペアと,対応する入力と組み合わせて出力を区別できない予測関数を学習することを提案する。
回帰に対するこのアプローチは、私たちが適合するデータの分布に対する仮定を減らし、表現能力が向上することを示す。
論文 参考訳(メタデータ) (2024-04-21T01:27:47Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - Deep Regression Unlearning [6.884272840652062]
我々は、プライバシー攻撃に対して堅牢な、一般化された深層回帰学習手法を導入する。
我々は、コンピュータビジョン、自然言語処理、予測アプリケーションのための回帰学習実験を行う。
論文 参考訳(メタデータ) (2022-10-15T05:00:20Z) - LPT: Long-tailed Prompt Tuning for Image Classification [178.52948452353834]
凍結事前訓練モデルに複数のトレーニング可能なプロンプトを導入し、長い尾を持つデータに適用する。
フェーズ1では、教師付きプロンプトチューニングを通じて共有プロンプトをトレーニングし、事前訓練されたモデルを所望の長尾領域に適応させる。
フェーズ2では、学習した共有プロンプトをクエリとして使用し、類似したサンプルのグループに対して、マッチした小さなベストセットを選択する。
論文 参考訳(メタデータ) (2022-10-03T15:47:02Z) - InPars: Data Augmentation for Information Retrieval using Large Language
Models [5.851846467503597]
本研究では,大規模な事前学習型言語モデルの,情報検索タスクのための合成データ生成機能を利用する。
我々は、教師なしデータセットのみに微調整されたモデルが、BM25のような強力なベースラインより優れていることを示す。
教師付きデータと我々の合成データの両方に微調整されたレトリバーは、教師付きデータにのみ微調整されたモデルよりも優れたゼロショット転送を実現する。
論文 参考訳(メタデータ) (2022-02-10T16:52:45Z) - Reproducible, incremental representation learning with Rosetta VAE [0.0]
変分オートエンコーダは、高次元データから低次元構造を蒸留する最も一般的な方法の一つである。
我々は、以前に学習した表現を蒸留し、新しいモデルを再現し、事前の結果に基づいて構築する手法であるRosetta VAEを紹介する。
R-VAEは、VAEや$beta$-VAEと同様にデータを再構成し、連続的なトレーニング環境でターゲット潜在空間の回復において、両方の手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-01-13T20:45:35Z) - Transformers Can Do Bayesian Inference [56.99390658880008]
我々はPFN(Presideed Data Fitted Networks)を提案する。
PFNは、大規模機械学習技術におけるインコンテキスト学習を活用して、大規模な後部集合を近似する。
我々は、PFNがガウス過程をほぼ完璧に模倣し、難解問題に対する効率的なベイズ推定を可能にすることを示した。
論文 参考訳(メタデータ) (2021-12-20T13:07:39Z) - RPT: Toward Transferable Model on Heterogeneous Researcher Data via
Pre-Training [19.987304448524043]
マルチタスク型自己教師型学習ベース研究者データ事前学習モデル RPT を提案する。
研究者のデータをセマンティックドキュメントセットとコミュニティグラフに分割する。
モデル全体を学習するための3つの自己教師型学習目標を提案する。
論文 参考訳(メタデータ) (2021-10-08T03:42:09Z) - Cherry-Picking Gradients: Learning Low-Rank Embeddings of Visual Data
via Differentiable Cross-Approximation [53.95297550117153]
本稿では,大規模な視覚データテンソルの処理を行うエンドツーエンドのトレーニング可能なフレームワークを提案する。
提案手法は大規模多次元グリッドデータや,大規模受容領域上のコンテキストを必要とするタスクに特に有用である。
論文 参考訳(メタデータ) (2021-05-29T08:39:57Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。