論文の概要: This is the way: designing and compiling LEPISZCZE, a comprehensive NLP
benchmark for Polish
- arxiv url: http://arxiv.org/abs/2211.13112v1
- Date: Wed, 23 Nov 2022 16:51:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 14:40:58.953151
- Title: This is the way: designing and compiling LEPISZCZE, a comprehensive NLP
benchmark for Polish
- Title(参考訳): ポーランド語のための包括的なnlpベンチマークlepiszczeの設計とコンパイル
- Authors: {\L}ukasz Augustyniak, Kamil Tagowski, Albert Sawczyn, Denis Janiak,
Roman Bartusiak, Adrian Szymczak, Marcin W\k{a}troba, Arkadiusz Janz, Piotr
Szyma\'nski, Miko{\l}aj Morzy, Tomasz Kajdanowicz, Maciej Piasecki
- Abstract要約: ポーランドNLPの新しい総合ベンチマークであるLEPISZCZEを紹介する。
ポーランドのベンチマークから5つのデータセットを使用し、8つの新しいデータセットを追加しています。
我々はポーランド語のためのベンチマークを作成しながら学んだ洞察と経験を提供し、他の低リソース言語のための同様のベンチマークを設計する青写真を提供する。
- 参考スコア(独自算出の注目度): 5.8090623549313944
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The availability of compute and data to train larger and larger language
models increases the demand for robust methods of benchmarking the true
progress of LM training. Recent years witnessed significant progress in
standardized benchmarking for English. Benchmarks such as GLUE, SuperGLUE, or
KILT have become de facto standard tools to compare large language models.
Following the trend to replicate GLUE for other languages, the KLEJ benchmark
has been released for Polish. In this paper, we evaluate the progress in
benchmarking for low-resourced languages. We note that only a handful of
languages have such comprehensive benchmarks. We also note the gap in the
number of tasks being evaluated by benchmarks for resource-rich English/Chinese
and the rest of the world. In this paper, we introduce LEPISZCZE (the Polish
word for glew, the Middle English predecessor of glue), a new, comprehensive
benchmark for Polish NLP with a large variety of tasks and high-quality
operationalization of the benchmark. We design LEPISZCZE with flexibility in
mind. Including new models, datasets, and tasks is as simple as possible while
still offering data versioning and model tracking. In the first run of the
benchmark, we test 13 experiments (task and dataset pairs) based on the five
most recent LMs for Polish. We use five datasets from the Polish benchmark and
add eight novel datasets. As the paper's main contribution, apart from
LEPISZCZE, we provide insights and experiences learned while creating the
benchmark for Polish as the blueprint to design similar benchmarks for other
low-resourced languages.
- Abstract(参考訳): より大きな言語モデルをトレーニングするための計算とデータの可用性は、LMトレーニングの真の進歩をベンチマークする堅牢な方法の需要を増加させる。
近年、英語の標準ベンチマークが大幅に進歩した。
GLUE、SuperGLUE、KILTなどのベンチマークは、大規模な言語モデルを比較するための事実上の標準ツールになっている。
他の言語でGLUEを複製するトレンドに続いて、KLEJベンチマークがポーランドでリリースされた。
本稿では,低リソース言語におけるベンチマークの進歩を評価する。
このような包括的なベンチマークを持つ言語はごくわずかです。
また、資源豊富な英語/中国語のベンチマークによって評価されるタスクの数と、世界の他の地域とのギャップについても言及する。
本稿では,LEPISZCZE (ポーランド語: glew, 英語: glew, the Middle English predecessor of glue) を紹介する。
柔軟性を考慮してLEPISZCZEを設計する。
新しいモデル、データセット、タスクを含めることは、データバージョニングとモデルトラッキングを提供しながら、可能な限りシンプルである。
最初のベンチマークでは、ポーランドの5つの最新のLMに基づいて13の実験(タスクとデータセットペア)を行った。
ポーランドベンチマークの5つのデータセットを使用して、8つの新しいデータセットを追加します。
論文の主な貢献として、LEPISZCZEとは別に、ポーランド語のためのベンチマークを作成しながら学んだ洞察と経験を提供し、他の低リソース言語向けの同様のベンチマークを設計する。
関連論文リスト
- P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。
以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。
我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - NLPre: a revised approach towards language-centric benchmarking of Natural Language Preprocessing systems [2.141587359797428]
規則に基づく形態解析や辞書を頼りに、新しい解を十分に整合した前処理ツールキットと比較することは困難である。
GLUEベンチマークにインスパイアされたこの言語中心ベンチマークシステムは、複数のNLPreツールの包括的な評価を可能にする。
プロトタイプアプリケーションはポーランド語用に設定されており、完全に組み立てられたNLPre-PLベンチマークと統合されている。
論文 参考訳(メタデータ) (2024-03-07T14:07:00Z) - GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。
GEMv2は51言語で40のドキュメントデータセットをサポートする。
すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) (2022-06-22T17:52:30Z) - Evaluation of Transfer Learning for Polish with a Text-to-Text Model [54.81823151748415]
ポーランド語におけるテキスト・テキスト・モデルの質を評価するための新しいベンチマークを導入する。
KLEJベンチマークはテキスト・トゥ・テキスト、en-pl翻訳、要約、質問応答に適応している。
本稿では,ポーランド語のための汎用テキスト・テキスト・ツー・テキスト・モデルであるplT5について述べる。
論文 参考訳(メタデータ) (2022-05-18T09:17:14Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - KLUE: Korean Language Understanding Evaluation [43.94952771238633]
韓国語理解評価(KLUE)ベンチマークを紹介する。
KLUEは、韓国の8つの自然言語理解(NLU)タスクのコレクションである。
著作権を尊重しながら、さまざまなソースコーパスから、すべてのタスクをゼロから構築します。
論文 参考訳(メタデータ) (2021-05-20T11:40:30Z) - MOROCCO: Model Resource Comparison Framework [61.444083353087294]
我々は,50以上のNLUタスクをサポートするttjiant環境と互換性のある言語モデルを比較するフレームワークMOROCCOを提案する。
異なる言語で2つのGLUEライクなスイートに適用可能であることを示す。
論文 参考訳(メタデータ) (2021-04-29T13:01:27Z) - KLEJ: Comprehensive Benchmark for Polish Language Understanding [4.702729080310267]
ポーランド語理解のための総合的なマルチタスクベンチマークを導入する。
また、ポーランド語に特化して訓練されたトランスフォーマーベースのモデルであるHerBERTもリリースしました。
論文 参考訳(メタデータ) (2020-05-01T21:55:40Z) - CLUE: A Chinese Language Understanding Evaluation Benchmark [41.86950255312653]
最初の大規模中国語理解評価(CLUE)ベンチマークを紹介する。
CLUEは、確立された1文/文ペアの分類タスクにまたがる9つのタスクと、機械読み取りの理解を提供する。
我々は、現在最先端の中国のモデルを用いてスコアを報告する。
論文 参考訳(メタデータ) (2020-04-13T15:02:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。