論文の概要: CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language
Understanding and Generation
- arxiv url: http://arxiv.org/abs/2109.05729v2
- Date: Tue, 14 Sep 2021 08:35:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 12:54:31.614151
- Title: CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language
Understanding and Generation
- Title(参考訳): CPT:中国語の理解と生成のための事前学習型アンバランス変換器
- Authors: Yunfan Shao, Zhichao Geng, Yitao Liu, Junqi Dai, Fei Yang, Li Zhe,
Hujun Bao, Xipeng Qiu
- Abstract要約: 中国語事前訓練アンバランス変換器(CPT)は、自然言語理解(NLU)と自然言語生成(NLG)の両方のために設計されている。
CPTは、共有エンコーダ、理解デコーダ、生成デコーダの3つの部分から構成される。
部分的に共有されたアーキテクチャとマルチタスク事前学習により、CPTは2つのデコーダでNLUまたはNLGタスクの具体的な知識を学ぶことができる。
- 参考スコア(独自算出の注目度): 38.02741711554989
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we take the advantage of previous pre-trained models (PTMs)
and propose a novel Chinese Pre-trained Unbalanced Transformer (CPT). Different
from previous Chinese PTMs, CPT is designed for both natural language
understanding (NLU) and natural language generation (NLG) tasks. CPT consists
of three parts: a shared encoder, an understanding decoder, and a generation
decoder. Two specific decoders with a shared encoder are pre-trained with
masked language modeling (MLM) and denoising auto-encoding (DAE) tasks,
respectively. With the partially shared architecture and multi-task
pre-training, CPT can (1) learn specific knowledge of both NLU or NLG tasks
with two decoders and (2) be fine-tuned flexibly that fully exploits the
potential of the model. Moreover, the unbalanced Transformer saves the
computational and storage cost, which makes CPT competitive and greatly
accelerates the inference of text generation. Experimental results on a wide
range of Chinese NLU and NLG tasks show the effectiveness of CPT.
- Abstract(参考訳): 本稿では,従来の事前学習モデル(ptms)の利点を生かして,新しい中国予訓練不平衡変圧器(cpt)を提案する。
従来の中国のPTMとは異なり、CPTは自然言語理解(NLU)と自然言語生成(NLG)の両方のために設計されている。
cptは、共有エンコーダ、理解デコーダ、ジェネレーションデコーダの3つの部分から構成されている。
共有エンコーダを持つ2つの特定のデコーダは、それぞれマスク付き言語モデリング(MLM)と自動エンコーダ(DAE)タスクで事前訓練される。
部分共有アーキテクチャとマルチタスク事前学習により、CPTは(1)2つのデコーダでNLUまたはNLGタスクの具体的な知識を学習し、(2)モデルの可能性を完全に活用する柔軟に微調整できる。
さらに、アンバランス変換器は計算コストとストレージコストを節約し、CPTの競争力を高め、テキスト生成の推論を大幅に高速化する。
幅広い中国のNLUおよびNLGタスクの実験結果から,CPTの有効性が示された。
関連論文リスト
- How to get better embeddings with code pre-trained models? An empirical
study [6.220333404184779]
下流分類タスクの埋め込みを生成するために,5つの異なるコード事前訓練モデル(PTM)について検討する。
特別なトークンによって得られた埋め込みは、コードスニペット全体の意味情報を十分に集約していないことが分かりました。
PTMの事前学習と同様、コードデータとテキストデータをマージして得られるコード埋め込みの品質は低く、よりリッチなセマンティック情報を保証できない。
論文 参考訳(メタデータ) (2023-11-14T10:44:21Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for
Code Understanding and Generation [36.47905744758698]
我々は、開発者が指定した識別子から伝達されるコードセマンティクスをよりよく活用する、事前訓練されたエンコーダ-デコーダ変換モデルであるCodeT5を提案する。
我々のモデルは、コード理解と生成タスクの両方をシームレスにサポートし、マルチタスク学習を可能にする統一的なフレームワークを採用している。
論文 参考訳(メタデータ) (2021-09-02T12:21:06Z) - DeltaLM: Encoder-Decoder Pre-training for Language Generation and
Translation by Augmenting Pretrained Multilingual Encoders [92.90543340071007]
本稿では,事前訓練された多言語エンコーダデコーダモデルDeltaLMを紹介する。
具体的には,事前学習した多言語エンコーダをデコーダで拡張し,自己指導型で事前学習する。
実験により、DeltaLMは自然言語生成と翻訳の両方のタスクにおいて、様々な強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2021-06-25T16:12:10Z) - Scheduled Sampling in Vision-Language Pretraining with Decoupled
Encoder-Decoder Network [99.03895740754402]
本稿では,2つの切り離されたクロスモーダルエンコーダとデコーダが関与するエンコーダ・デコーダ構造の2ストリーム分離設計を提案する。
その代替として,2パス方式でエンコーダデコーダを事前学習することで,そのような不一致を緩和する一次サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2021-01-27T17:36:57Z) - UniVL: A Unified Video and Language Pre-Training Model for Multimodal
Understanding and Generation [76.12027504427708]
本稿では,マルチモーダル理解と生成のためのUnified Video and Language事前学習モデルUniVLを提案する。
2つのシングルモーダルエンコーダ、クロスエンコーダ、トランスフォーマーバックボーンを備えたデコーダを含む4つのコンポーネントから構成される。
ステージバイステージ事前学習(StagedP)と拡張ビデオ表現(EnhancedV)の2つの事前学習戦略を開発し、UniVLのトレーニングプロセスをより効果的にする。
論文 参考訳(メタデータ) (2020-02-15T10:03:25Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。