論文の概要: WYWEB: A NLP Evaluation Benchmark For Classical Chinese
- arxiv url: http://arxiv.org/abs/2305.14150v1
- Date: Tue, 23 May 2023 15:15:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 15:24:17.129939
- Title: WYWEB: A NLP Evaluation Benchmark For Classical Chinese
- Title(参考訳): WYWEB:古典中国語のNLP評価ベンチマーク
- Authors: Bo Zhou, Qianglong Chen, Tianyu Wang, Xiaomi Zhong, Yin Zhang
- Abstract要約: 古典中国語における9つのNLPタスクからなるWYWEB評価ベンチマークを紹介する。
我々は、このベンチマークで苦労している既存の事前学習言語モデルを評価する。
- 参考スコア(独自算出の注目度): 10.138128038929237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To fully evaluate the overall performance of different NLP models in a given
domain, many evaluation benchmarks are proposed, such as GLUE, SuperGLUE and
CLUE. The fi eld of natural language understanding has traditionally focused on
benchmarks for various tasks in languages such as Chinese, English, and
multilingua, however, there has been a lack of attention given to the area of
classical Chinese, also known as "wen yan wen", which has a rich history
spanning thousands of years and holds signifi cant cultural and academic value.
For the prosperity of the NLP community, in this paper, we introduce the WYWEB
evaluation benchmark, which consists of nine NLP tasks in classical Chinese,
implementing sentence classifi cation, sequence labeling, reading
comprehension, and machine translation. We evaluate the existing pre-trained
language models, which are all struggling with this benchmark. We also
introduce a number of supplementary datasets and additional tools to help
facilitate further progress on classical Chinese NLU. The github repository is
https://github.com/baudzhou/WYWEB.
- Abstract(参考訳): 与えられた領域における異なるNLPモデルの全体的な性能を評価するため、GLUE、SuperGLUE、CLUEなど多くの評価ベンチマークが提案されている。
自然言語理解のfi eldは、伝統的に中国語、英語、マルチリンガなどの言語における様々なタスクのベンチマークに焦点を当ててきたが、数千年にわたる豊富な歴史を持ち、文化や学術的な価値を持つ古典中国語の領域には注意が払われていない。
本稿では,nlpコミュニティの繁栄のために,古典中国語における9つのnlpタスクからなるwyweb評価ベンチマーク(wyweb evaluation benchmark)を紹介する。
我々は、このベンチマークで苦労している既存の事前学習言語モデルを評価する。
また,中国の古典的nluのさらなる発展を促進するために,補足データセットや追加ツールについても紹介する。
githubリポジトリはhttps://github.com/baudzhou/WYWEBです。
関連論文リスト
- DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - bgGLUE: A Bulgarian General Language Understanding Evaluation Benchmark [28.472036496534116]
bgGLUEはブルガリアにおける自然言語理解(NLU)タスクの言語モデルを評価するためのベンチマークである。
ブルガリア語のための事前訓練された言語モデルの最初の体系的評価を行い、ベンチマークの9つのタスクを比較して比較した。
論文 参考訳(メタデータ) (2023-06-04T12:54:00Z) - This is the way: designing and compiling LEPISZCZE, a comprehensive NLP
benchmark for Polish [5.8090623549313944]
ポーランドNLPの新しい総合ベンチマークであるLEPISZCZEを紹介する。
ポーランドのベンチマークから5つのデータセットを使用し、8つの新しいデータセットを追加しています。
我々はポーランド語のためのベンチマークを作成しながら学んだ洞察と経験を提供し、他の低リソース言語のための同様のベンチマークを設計する青写真を提供する。
論文 参考訳(メタデータ) (2022-11-23T16:51:09Z) - CUGE: A Chinese Language Understanding and Generation Evaluation
Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。
汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。
以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文 参考訳(メタデータ) (2021-12-27T11:08:58Z) - FewJoint: A Few-shot Learning Benchmark for Joint Language Understanding [55.38905499274026]
機械学習は、機械学習における重要なステップの1つだ。
FewJointは、NLP用のFew-Shot Learningベンチマークである。
論文 参考訳(メタデータ) (2020-09-17T08:17:12Z) - CLUE: A Chinese Language Understanding Evaluation Benchmark [41.86950255312653]
最初の大規模中国語理解評価(CLUE)ベンチマークを紹介する。
CLUEは、確立された1文/文ペアの分類タスクにまたがる9つのタスクと、機械読み取りの理解を提供する。
我々は、現在最先端の中国のモデルを用いてスコアを報告する。
論文 参考訳(メタデータ) (2020-04-13T15:02:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。