論文の概要: RPT: Relational Pre-trained Transformer Is Almost All You Need towards
Democratizing Data Preparation
- arxiv url: http://arxiv.org/abs/2012.02469v2
- Date: Wed, 31 Mar 2021 08:28:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-22 20:33:14.222101
- Title: RPT: Relational Pre-trained Transformer Is Almost All You Need towards
Democratizing Data Preparation
- Title(参考訳): RPT:データ準備の民主化に必要なのはリレーショナル・プレトレーニング・トランスフォーマー
- Authors: Nan Tang, Ju Fan, Fangyi Li, Jianhong Tu, Xiaoyong Du, Guoliang Li,
Sam Madden, Mourad Ouzzani
- Abstract要約: 本稿では,クラウド・トゥ・Xモデルのための自動エンコーダ RPT を提案する。
RPTは、双方向エンコーダ(BERTに類似)と左から右への自己回帰(GPTに類似)からなるトランスフォーマーベースの神経翻訳のために事前訓練されている
- 参考スコア(独自算出の注目度): 34.24421000527444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can AI help automate human-easy but computer-hard data preparation tasks that
burden data scientists, practitioners, and crowd workers? We answer this
question by presenting RPT, a denoising auto-encoder for tuple-to-X models (X
could be tuple, token, label, JSON, and so on). RPT is pre-trained for a
tuple-to-tuple model by corrupting the input tuple and then learning a model to
reconstruct the original tuple. It adopts a Transformer-based neural
translation architecture that consists of a bidirectional encoder (similar to
BERT) and a left-to-right autoregressive decoder (similar to GPT), leading to a
generalization of both BERT and GPT. The pre-trained RPT can already support
several common data preparation tasks such as data cleaning, auto-completion
and schema matching. Better still, RPT can be fine-tuned on a wide range of
data preparation tasks, such as value normalization, data transformation, data
annotation, etc. To complement RPT, we also discuss several appealing
techniques such as collaborative training and few-shot learning for entity
resolution, and few-shot learning and NLP question-answering for information
extraction. In addition, we identify a series of research opportunities to
advance the field of data preparation.
- Abstract(参考訳): AIは、データサイエンティスト、実践家、そして群衆労働者に負担を与える、人間にとって簡単なデータ準備作業を自動化するのに役立つだろうか?
RPTは、タプルからXモデル(Xはタプル、トークン、ラベル、JSONなど)のための自動エンコーダです。
RPTは、入力タプルを破損させ、元のタプルを再構築するモデルを学ぶことで、タプルからタプルまでのモデルのために事前訓練される。
このアーキテクチャは、双方向エンコーダ(BERTに類似)と左から右への自己回帰デコーダ(GPTに類似)で構成されるトランスフォーマーベースの神経翻訳アーキテクチャを採用し、BERTとGPTの両方を一般化する。
事前トレーニングされたrptは、データクリーニング、自動補完、スキーママッチングなど、いくつかの一般的なデータ準備タスクをすでにサポートしている。
それでも、rptは、値の正規化、データ変換、データアノテーションなど、幅広いデータ準備タスクで微調整することができる。
rptを補完するために,エンティティ解決のための協調学習や,情報抽出のためのnlp質問応答学習など,いくつかのアピール手法についても検討した。
さらに、データ準備の分野を前進させる一連の研究機会を特定する。
関連論文リスト
- Deep Regression Unlearning [6.884272840652062]
我々は、プライバシー攻撃に対して堅牢な、一般化された深層回帰学習手法を導入する。
我々は、コンピュータビジョン、自然言語処理、予測アプリケーションのための回帰学習実験を行う。
論文 参考訳(メタデータ) (2022-10-15T05:00:20Z) - LPT: Long-tailed Prompt Tuning for Image Classification [178.52948452353834]
凍結事前訓練モデルに複数のトレーニング可能なプロンプトを導入し、長い尾を持つデータに適用する。
フェーズ1では、教師付きプロンプトチューニングを通じて共有プロンプトをトレーニングし、事前訓練されたモデルを所望の長尾領域に適応させる。
フェーズ2では、学習した共有プロンプトをクエリとして使用し、類似したサンプルのグループに対して、マッチした小さなベストセットを選択する。
論文 参考訳(メタデータ) (2022-10-03T15:47:02Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - Domain-Specific NER via Retrieving Correlated Samples [37.98414661072985]
本稿では,NERモデルの相関サンプルによる拡張を提案する。
人間の推論過程を明示的にシミュレートするために,多数決によるトレーニング不要な実体型校正を行う。
上記の2つの領域のデータセットに対する実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-08-27T12:25:24Z) - InPars: Data Augmentation for Information Retrieval using Large Language
Models [5.851846467503597]
本研究では,大規模な事前学習型言語モデルの,情報検索タスクのための合成データ生成機能を利用する。
我々は、教師なしデータセットのみに微調整されたモデルが、BM25のような強力なベースラインより優れていることを示す。
教師付きデータと我々の合成データの両方に微調整されたレトリバーは、教師付きデータにのみ微調整されたモデルよりも優れたゼロショット転送を実現する。
論文 参考訳(メタデータ) (2022-02-10T16:52:45Z) - Reproducible, incremental representation learning with Rosetta VAE [0.0]
変分オートエンコーダは、高次元データから低次元構造を蒸留する最も一般的な方法の一つである。
我々は、以前に学習した表現を蒸留し、新しいモデルを再現し、事前の結果に基づいて構築する手法であるRosetta VAEを紹介する。
R-VAEは、VAEや$beta$-VAEと同様にデータを再構成し、連続的なトレーニング環境でターゲット潜在空間の回復において、両方の手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-01-13T20:45:35Z) - RPT: Toward Transferable Model on Heterogeneous Researcher Data via
Pre-Training [19.987304448524043]
マルチタスク型自己教師型学習ベース研究者データ事前学習モデル RPT を提案する。
研究者のデータをセマンティックドキュメントセットとコミュニティグラフに分割する。
モデル全体を学習するための3つの自己教師型学習目標を提案する。
論文 参考訳(メタデータ) (2021-10-08T03:42:09Z) - Cherry-Picking Gradients: Learning Low-Rank Embeddings of Visual Data
via Differentiable Cross-Approximation [53.95297550117153]
本稿では,大規模な視覚データテンソルの処理を行うエンドツーエンドのトレーニング可能なフレームワークを提案する。
提案手法は大規模多次元グリッドデータや,大規模受容領域上のコンテキストを必要とするタスクに特に有用である。
論文 参考訳(メタデータ) (2021-05-29T08:39:57Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。