論文の概要: bgGLUE: A Bulgarian General Language Understanding Evaluation Benchmark
- arxiv url: http://arxiv.org/abs/2306.02349v2
- Date: Wed, 7 Jun 2023 03:57:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 10:56:20.507563
- Title: bgGLUE: A Bulgarian General Language Understanding Evaluation Benchmark
- Title(参考訳): bgGLUE: ブルガリアの一般言語理解評価ベンチマーク
- Authors: Momchil Hardalov, Pepa Atanasova, Todor Mihaylov, Galia Angelova,
Kiril Simov, Petya Osenova, Ves Stoyanov, Ivan Koychev, Preslav Nakov,
Dragomir Radev
- Abstract要約: bgGLUEはブルガリアにおける自然言語理解(NLU)タスクの言語モデルを評価するためのベンチマークである。
ブルガリア語のための事前訓練された言語モデルの最初の体系的評価を行い、ベンチマークの9つのタスクを比較して比較した。
- 参考スコア(独自算出の注目度): 28.472036496534116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present bgGLUE(Bulgarian General Language Understanding Evaluation), a
benchmark for evaluating language models on Natural Language Understanding
(NLU) tasks in Bulgarian. Our benchmark includes NLU tasks targeting a variety
of NLP problems (e.g., natural language inference, fact-checking, named entity
recognition, sentiment analysis, question answering, etc.) and machine learning
tasks (sequence labeling, document-level classification, and regression). We
run the first systematic evaluation of pre-trained language models for
Bulgarian, comparing and contrasting results across the nine tasks in the
benchmark. The evaluation results show strong performance on sequence labeling
tasks, but there is a lot of room for improvement for tasks that require more
complex reasoning. We make bgGLUE publicly available together with the
fine-tuning and the evaluation code, as well as a public leaderboard at
https://bgglue.github.io/, and we hope that it will enable further advancements
in developing NLU models for Bulgarian.
- Abstract(参考訳): ブルガリアの自然言語理解タスク(nlu)における言語モデル評価のためのベンチマークであるbgglue(bulgarian general language understanding evaluation)を提案する。
我々のベンチマークには、さまざまなNLP問題(自然言語推論、ファクトチェック、名前付きエンティティ認識、感情分析、質問応答など)と機械学習タスク(シーケンスラベリング、文書レベルの分類、回帰)をターゲットにしたNLUタスクが含まれています。
ブルガリア語のための事前学習言語モデルの最初の体系的評価を行い、ベンチマークの9つのタスクを比較して比較した。
評価結果はシーケンスラベリングタスクに強い性能を示すが、より複雑な推論を必要とするタスクには改善の余地がたくさんある。
私たちはbgglueを微調整と評価コードとともに公開するとともに、https://bgglue.github.io/の公開リーダボードも公開しています。
関連論文リスト
- DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Python Code Generation by Asking Clarification Questions [57.63906360576212]
本稿では,この課題に対して,より斬新で現実的なセットアップを導入する。
我々は、自然言語記述の過小評価は、明確化を問うことで解決できると仮定する。
我々は、生成した合成明確化質問と回答を含む自然言語記述とコードのペアを含む、CodeClarQAという新しいデータセットを収集し、導入する。
論文 参考訳(メタデータ) (2022-12-19T22:08:36Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - CUGE: A Chinese Language Understanding and Generation Evaluation
Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。
汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。
以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文 参考訳(メタデータ) (2021-12-27T11:08:58Z) - Can Machines Read Coding Manuals Yet? -- A Benchmark for Building Better
Language Models for Code Understanding [3.98345038769576]
フォーラムの投稿で、質問に対する最良の回答を予測するなどのタスクに基づいて、コード理解を評価するためのベンチマークのセットを導出します。
我々は,これらのタスクにおける現状の言語モデルの性能を評価し,微調整による各タスクの大幅な改善を示す。
論文 参考訳(メタデータ) (2021-09-15T17:42:44Z) - KLUE: Korean Language Understanding Evaluation [43.94952771238633]
韓国語理解評価(KLUE)ベンチマークを紹介する。
KLUEは、韓国の8つの自然言語理解(NLU)タスクのコレクションである。
著作権を尊重しながら、さまざまなソースコーパスから、すべてのタスクをゼロから構築します。
論文 参考訳(メタデータ) (2021-05-20T11:40:30Z) - GLGE: A New General Language Generation Evaluation Benchmark [139.25515221280767]
General Language Generation Evaluation (GLGE)は、NLGモデルの一般化能力を評価するための新しいマルチタスクベンチマークである。
NLGモデルにおける事前学習と伝達学習の研究を促進するため、GLGEを一般公開し、強力なベースラインを持つリーダーボードを構築する。
論文 参考訳(メタデータ) (2020-11-24T06:59:45Z) - CLUE: A Chinese Language Understanding Evaluation Benchmark [41.86950255312653]
最初の大規模中国語理解評価(CLUE)ベンチマークを紹介する。
CLUEは、確立された1文/文ペアの分類タスクにまたがる9つのタスクと、機械読み取りの理解を提供する。
我々は、現在最先端の中国のモデルを用いてスコアを報告する。
論文 参考訳(メタデータ) (2020-04-13T15:02:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。