論文の概要: All NLP Tasks Are Generation Tasks: A General Pretraining Framework
- arxiv url: http://arxiv.org/abs/2103.10360v1
- Date: Thu, 18 Mar 2021 16:30:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-19 19:54:36.610940
- Title: All NLP Tasks Are Generation Tasks: A General Pretraining Framework
- Title(参考訳): すべてのNLPタスクが生成タスク:一般的な事前トレーニングフレームワーク
- Authors: Zhengxiao Du, Yujie Qian, Xiao Liu, Ming Ding, Jiezhong Qiu, Zhilin
Yang, Jie Tang
- Abstract要約: 本稿では,この課題に対処する新しい事前学習フレームワーク GLM (General Language Model) を提案する。
先行研究と比較して,(1)単一事前学習モデルによる分類,無条件生成,および条件生成のタスクにおいて良好に機能する,(2)事前訓練と微粒化の一貫性の向上による分類上のbertモデルを上回る,(3)下流タスクで不可欠な可変長ブランクフィリングを自然に処理する,の3つの大きなメリットがある。
- 参考スコア(独自算出の注目度): 29.530780978381173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There have been various types of pretraining architectures including
autoregressive models (e.g., GPT), autoencoding models (e.g., BERT), and
encoder-decoder models (e.g., T5). On the other hand, NLP tasks are different
in nature, with three main categories being classification, unconditional
generation, and conditional generation. However, none of the pretraining
frameworks performs the best for all tasks, which introduces inconvenience for
model development and selection. We propose a novel pretraining framework GLM
(General Language Model) to address this challenge. Compared to previous work,
our architecture has three major benefits: (1) it performs well on
classification, unconditional generation, and conditional generation tasks with
one single pretrained model; (2) it outperforms BERT-like models on
classification due to improved pretrain-finetune consistency; (3) it naturally
handles variable-length blank filling which is crucial for many downstream
tasks. Empirically, GLM substantially outperforms BERT on the SuperGLUE natural
language understanding benchmark with the same amount of pre-training data.
Moreover, GLM with 1.25x parameters of BERT-Large achieves the best performance
in NLU, conditional and unconditional generation at the same time, which
demonstrates its generalizability to different downstream tasks.
- Abstract(参考訳): 事前トレーニングアーキテクチャには、自動回帰モデル(GPTなど)、自動エンコードモデル(BERTなど)、エンコーダ-デコーダモデル(T5など)など、さまざまな種類がある。
一方、NLPタスクは本質的には異なり、分類、無条件生成、条件生成の3つの主要なカテゴリがある。
しかしながら、事前トレーニングフレームワークがすべてのタスクで最高のパフォーマンスを発揮することはなく、モデルの開発と選択に不便をもたらす。
本稿では,この課題に対処する新しい事前学習フレームワーク GLM (General Language Model) を提案する。
先行研究と比較して,(1)単一事前学習モデルによる分類,無条件生成,条件生成のタスクに良好に機能する,(2)事前訓練と精細化の一貫性の向上による分類上のbertモデルを上回る,(3)ダウンストリームタスクに不可欠な可変長ブランクフィリングを自然に処理する,の3つの大きなメリットがある。
GLMは、SuperGLUEの自然言語理解ベンチマークにおいて、同じ量の事前学習データでBERTを大幅に上回っている。
さらに、BERT-Large の 1.25 倍のパラメータを持つ GLM は、異なる下流タスクに対する一般化性を示す条件付きおよび非条件生成の NLU において、最高の性能を達成する。
関連論文リスト
- It's All in The [MASK]: Simple Instruction-Tuning Enables BERT-like Masked Language Models As Generative Classifiers [2.3923290791822267]
生成分類にマスク付き言語モデリングヘッドを利用するエンコーダモデルであるModernBERT-Large-Instructを導入する。
当社のアプローチでは、重度の事前処理を必要としない、意図的な単純なトレーニングループと推論メカニズムを採用しています。
ModernBERT-Large-Instructは、分類と知識に基づくタスクの両方において強力なゼロショット性能を示す。
論文 参考訳(メタデータ) (2025-02-06T05:47:37Z) - KaLM-Embedding: Superior Training Data Brings A Stronger Embedding Model [27.25688303240741]
KaLM-Embeddingは、よりクリーンで、より多様な、ドメイン固有のトレーニングデータを活用する一般的な多言語埋め込みモデルである。
我々のモデルは、性能を向上させることが証明された重要な技術で訓練されている。
論文 参考訳(メタデータ) (2025-01-02T03:17:51Z) - Can bidirectional encoder become the ultimate winner for downstream applications of foundation models? [1.8120356834558644]
基礎モデルには、事前学習、移動学習、自己指導学習の特徴がある。
BERTは、マスク付き言語モデルを用いて事前学習において、一方通行の言語モデリングのみを使用するという制限を突破した。
本稿では,GPT と BERT に基づく一方向モデルと双方向モデルを分析し,その目的に基づいて差分を比較する。
論文 参考訳(メタデータ) (2024-11-27T03:31:14Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2021-10-21T13:04:21Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z) - Exploring Versatile Generative Language Model Via Parameter-Efficient
Transfer Learning [70.81910984985683]
本稿では,1つの大規模事前学習モデルを用いて,複数のダウンストリーム生成タスクを同時に微調整する効果的な方法を提案する。
5つの多様な言語生成タスクの実験は、各タスクに2-3%のパラメータを追加するだけで、モデル全体の微調整性能を維持または改善できることを示している。
論文 参考訳(メタデータ) (2020-04-08T06:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。