論文の概要: CLUE: A Chinese Language Understanding Evaluation Benchmark
- arxiv url: http://arxiv.org/abs/2004.05986v3
- Date: Thu, 5 Nov 2020 14:46:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 23:18:45.289861
- Title: CLUE: A Chinese Language Understanding Evaluation Benchmark
- Title(参考訳): CLUE: 評価ベンチマークの中国語理解
- Authors: Liang Xu, Hai Hu, Xuanwei Zhang, Lu Li, Chenjie Cao, Yudong Li, Yechen
Xu, Kai Sun, Dian Yu, Cong Yu, Yin Tian, Qianqian Dong, Weitang Liu, Bo Shi,
Yiming Cui, Junyi Li, Jun Zeng, Rongzhao Wang, Weijian Xie, Yanting Li, Yina
Patterson, Zuoyu Tian, Yiwen Zhang, He Zhou, Shaoweihua Liu, Zhe Zhao, Qipeng
Zhao, Cong Yue, Xinrui Zhang, Zhengliang Yang, Kyle Richardson and Zhenzhong
Lan
- Abstract要約: 最初の大規模中国語理解評価(CLUE)ベンチマークを紹介する。
CLUEは、確立された1文/文ペアの分類タスクにまたがる9つのタスクと、機械読み取りの理解を提供する。
我々は、現在最先端の中国のモデルを用いてスコアを報告する。
- 参考スコア(独自算出の注目度): 41.86950255312653
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The advent of natural language understanding (NLU) benchmarks for English,
such as GLUE and SuperGLUE allows new NLU models to be evaluated across a
diverse set of tasks. These comprehensive benchmarks have facilitated a broad
range of research and applications in natural language processing (NLP). The
problem, however, is that most such benchmarks are limited to English, which
has made it difficult to replicate many of the successes in English NLU for
other languages. To help remedy this issue, we introduce the first large-scale
Chinese Language Understanding Evaluation (CLUE) benchmark. CLUE is an
open-ended, community-driven project that brings together 9 tasks spanning
several well-established single-sentence/sentence-pair classification tasks, as
well as machine reading comprehension, all on original Chinese text. To
establish results on these tasks, we report scores using an exhaustive set of
current state-of-the-art pre-trained Chinese models (9 in total). We also
introduce a number of supplementary datasets and additional tools to help
facilitate further progress on Chinese NLU. Our benchmark is released at
https://www.CLUEbenchmarks.com
- Abstract(参考訳): GLUEやSuperGLUEのような自然言語理解(NLU)ベンチマークの出現により、新しいNLUモデルを様々なタスクで評価することが可能になった。
これらの包括的なベンチマークは、自然言語処理(NLP)の幅広い研究と応用を促進する。
しかし、このようなベンチマークのほとんどは英語に限定されているため、他の言語での英語NLUの成功の多くを複製することは困難である。
この問題を解決するために,第1回大規模中国語理解評価(clue)ベンチマークを紹介する。
CLUEはオープンなコミュニティ主導のプロジェクトであり、いくつかの確立された単一文/文/ペア分類タスクにまたがる9つのタスクと、すべて中国語の原文による機械読解を提供する。
これらの課題について,現在訓練済みの中国語モデル(計9種類)を網羅的に実施し,その成果を報告する。
また,中国nluのさらなる発展を促進するために,補足データセットや追加ツールについても紹介する。
私たちのベンチマークはhttps://www.cluebenchmarks.comでリリースされています。
関連論文リスト
- DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - bgGLUE: A Bulgarian General Language Understanding Evaluation Benchmark [28.472036496534116]
bgGLUEはブルガリアにおける自然言語理解(NLU)タスクの言語モデルを評価するためのベンチマークである。
ブルガリア語のための事前訓練された言語モデルの最初の体系的評価を行い、ベンチマークの9つのタスクを比較して比較した。
論文 参考訳(メタデータ) (2023-06-04T12:54:00Z) - WYWEB: A NLP Evaluation Benchmark For Classical Chinese [10.138128038929237]
古典中国語における9つのNLPタスクからなるWYWEB評価ベンチマークを紹介する。
我々は、このベンチマークで苦労している既存の事前学習言語モデルを評価する。
論文 参考訳(メタデータ) (2023-05-23T15:15:11Z) - This is the way: designing and compiling LEPISZCZE, a comprehensive NLP
benchmark for Polish [5.8090623549313944]
ポーランドNLPの新しい総合ベンチマークであるLEPISZCZEを紹介する。
ポーランドのベンチマークから5つのデータセットを使用し、8つの新しいデータセットを追加しています。
我々はポーランド語のためのベンチマークを作成しながら学んだ洞察と経験を提供し、他の低リソース言語のための同様のベンチマークを設計する青写真を提供する。
論文 参考訳(メタデータ) (2022-11-23T16:51:09Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark [8.158067688043554]
この研究は、中国初の総合的な小サンプル評価ベンチマークである中国語 Few-shot Learning Evaluation Benchmark (FewCLUE) を紹介した。
1つのタスクに最大2万のサンプルを追加するラベルなしのトレーニングが提供され、ラベルなしのサンプルを使用する方法を改善することができる。
次に、最先端の複数ショット学習手法を実装し、その性能をFewCLUEベンチマークの微調整およびゼロショット学習方式と比較する。
論文 参考訳(メタデータ) (2021-07-15T17:51:25Z) - ParsiNLU: A Suite of Language Understanding Challenges for Persian [23.26176232463948]
この作品は、世界で広く話されている言語の1つであるペルシャ語に焦点を当てています。
このリッチ言語で利用可能なNLUデータセットは少ない。
ParsiNLUは、さまざまな高レベルのタスクを含むペルシャ語言語の最初のベンチマークです。
論文 参考訳(メタデータ) (2020-12-11T06:31:42Z) - GLGE: A New General Language Generation Evaluation Benchmark [139.25515221280767]
General Language Generation Evaluation (GLGE)は、NLGモデルの一般化能力を評価するための新しいマルチタスクベンチマークである。
NLGモデルにおける事前学習と伝達学習の研究を促進するため、GLGEを一般公開し、強力なベースラインを持つリーダーボードを構築する。
論文 参考訳(メタデータ) (2020-11-24T06:59:45Z) - FewJoint: A Few-shot Learning Benchmark for Joint Language Understanding [55.38905499274026]
機械学習は、機械学習における重要なステップの1つだ。
FewJointは、NLP用のFew-Shot Learningベンチマークである。
論文 参考訳(メタデータ) (2020-09-17T08:17:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。