論文の概要: GLGE: A New General Language Generation Evaluation Benchmark
- arxiv url: http://arxiv.org/abs/2011.11928v3
- Date: Tue, 1 Jun 2021 08:01:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 13:00:55.834796
- Title: GLGE: A New General Language Generation Evaluation Benchmark
- Title(参考訳): GLGE: 新しい汎用言語生成評価ベンチマーク
- Authors: Dayiheng Liu, Yu Yan, Yeyun Gong, Weizhen Qi, Hang Zhang, Jian Jiao,
Weizhu Chen, Jie Fu, Linjun Shou, Ming Gong, Pengcheng Wang, Jiusheng Chen,
Daxin Jiang, Jiancheng Lv, Ruofei Zhang, Winnie Wu, Ming Zhou, Nan Duan
- Abstract要約: General Language Generation Evaluation (GLGE)は、NLGモデルの一般化能力を評価するための新しいマルチタスクベンチマークである。
NLGモデルにおける事前学習と伝達学習の研究を促進するため、GLGEを一般公開し、強力なベースラインを持つリーダーボードを構築する。
- 参考スコア(独自算出の注目度): 139.25515221280767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-task benchmarks such as GLUE and SuperGLUE have driven great progress
of pretraining and transfer learning in Natural Language Processing (NLP).
These benchmarks mostly focus on a range of Natural Language Understanding
(NLU) tasks, without considering the Natural Language Generation (NLG) models.
In this paper, we present the General Language Generation Evaluation (GLGE), a
new multi-task benchmark for evaluating the generalization capabilities of NLG
models across eight language generation tasks. For each task, we continue to
design three subtasks in terms of task difficulty (GLGE-Easy, GLGE-Medium, and
GLGE-Hard). This introduces 24 subtasks to comprehensively compare model
performance. To encourage research on pretraining and transfer learning on NLG
models, we make GLGE publicly available and build a leaderboard with strong
baselines including MASS, BART, and ProphetNet (The source code and dataset are
publicly available at https://github.com/microsoft/glge).
- Abstract(参考訳): GLUEやSuperGLUEのようなマルチタスクベンチマークは、自然言語処理(NLP)における事前学習と転送学習の大きな進歩を導いている。
これらのベンチマークは主に自然言語生成(NLG)モデルを考慮せずに、さまざまな自然言語理解(NLU)タスクに焦点を当てている。
本稿では,8つの言語生成タスクにわたるNLGモデルの一般化能力を評価するための,新しいマルチタスクベンチマークであるジェネラル言語生成評価(GLGE)を提案する。
各タスクに対して,タスク難易度(GLGE-Easy, GLGE-Medium, GLGE-Hard)の3つのサブタスクを引き続き設計する。
これにより、モデルパフォーマンスを包括的に比較する24のサブタスクが導入される。
NLGモデルの事前トレーニングと転送学習の研究を促進するため、GLGEを公開し、MASS、BART、ProphetNetなどの強力なベースラインを持つリーダボードを構築する(ソースコードとデータセットはhttps://github.com/microsoft/glge.comで公開されている)。
関連論文リスト
- UniverSLU: Universal Spoken Language Understanding for Diverse Tasks with Natural Language Instructions [64.50935101415776]
我々は,様々な音声言語理解(SLU)タスクを共同で行う単一モデルを構築した。
我々は17のデータセットと9の言語にまたがる12の音声分類とシーケンス生成タスクタイプに対して,1つのマルチタスク学習モデル"UniverSLU"の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-04T17:10:23Z) - bgGLUE: A Bulgarian General Language Understanding Evaluation Benchmark [28.472036496534116]
bgGLUEはブルガリアにおける自然言語理解(NLU)タスクの言語モデルを評価するためのベンチマークである。
ブルガリア語のための事前訓練された言語モデルの最初の体系的評価を行い、ベンチマークの9つのタスクを比較して比較した。
論文 参考訳(メタデータ) (2023-06-04T12:54:00Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - Multitask Prompted Training Enables Zero-Shot Task Generalization [70.12770442071657]
本研究では,一般的な自然言語タスクを人間に読まれる入力形式にマッピングするシステムを開発した。
様々なタスクをカバーしたマルチタスクミックス上に,事前学習したエンコーダ・デコーダモデルを微調整する。
このモデルは、いくつかの標準データセット上で強力なゼロショット性能を達成し、しばしば16倍のサイズのモデルより優れている。
論文 参考訳(メタデータ) (2021-10-15T17:08:57Z) - e-ViL: A Dataset and Benchmark for Natural Language Explanations in
Vision-Language Tasks [52.918087305406296]
説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。
また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。
画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-05-08T18:46:33Z) - Schema-Guided Natural Language Generation [13.11874946084068]
誘導自然言語生成(SG-NLG)の課題について紹介する。
SG-NLGでは、まだ自然言語プロンプトを生成することが目標であるが、SG-NLGでは、入力MRとコンテキスト情報を提供するリッチスキーマがペアリングされる。
このデータセットに基づいて、ニューラルネットワーク生成のためのさまざまな最先端モデルをトレーニングし、リッチスキーマ情報を含む多くのケースにおいて、私たちのモデルがより高い品質の出力を生成することができることを示す。
論文 参考訳(メタデータ) (2020-05-11T23:01:22Z) - KLEJ: Comprehensive Benchmark for Polish Language Understanding [4.702729080310267]
ポーランド語理解のための総合的なマルチタスクベンチマークを導入する。
また、ポーランド語に特化して訓練されたトランスフォーマーベースのモデルであるHerBERTもリリースしました。
論文 参考訳(メタデータ) (2020-05-01T21:55:40Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。