論文の概要: NorEval: A Norwegian Language Understanding and Generation Evaluation Benchmark
- arxiv url: http://arxiv.org/abs/2504.07749v1
- Date: Thu, 10 Apr 2025 13:44:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:23:19.114363
- Title: NorEval: A Norwegian Language Understanding and Generation Evaluation Benchmark
- Title(参考訳): NorEval: ノルウェーの言語理解と生成評価ベンチマーク
- Authors: Vladislav Mikhailov, Tita Enstad, David Samuel, Hans Christian Farsethås, Andrey Kutuzov, Erik Velldal, Lilja Øvrelid,
- Abstract要約: NorEvalは、24の高品質な人間生成データセットで構成されている。
ノルウェー語の理解と生成を対象とするタスクカテゴリの幅広い範囲をカバーする。
ノルウェー語の公式標準であるボクマール語とニノルスク語の両方に焦点を当てている。
- 参考スコア(独自算出の注目度): 10.018089141563104
- License:
- Abstract: This paper introduces NorEval, a new and comprehensive evaluation suite for large-scale standardized benchmarking of Norwegian generative language models (LMs). NorEval consists of 24 high-quality human-created datasets -- of which five are created from scratch. In contrast to existing benchmarks for Norwegian, NorEval covers a broad spectrum of task categories targeting Norwegian language understanding and generation, establishes human baselines, and focuses on both of the official written standards of the Norwegian language: Bokm{\aa}l and Nynorsk. All our datasets and a collection of over 100 human-written prompts are integrated into LM Evaluation Harness, ensuring flexible and reproducible evaluation. We describe the NorEval design and present the results of benchmarking 19 open-source pre-trained and instruction-tuned LMs for Norwegian in various scenarios. Our benchmark, evaluation framework, and annotation materials are publicly available.
- Abstract(参考訳): 本稿では,ノルウェー生成言語モデル(LM)の大規模標準化ベンチマークのための,新しい総合的評価スイートであるNorEvalを紹介する。
NorEvalは24の高品質な人為的データセットで構成されており、そのうち5つはスクラッチから作成されている。
ノルウェーの既存のベンチマークとは対照的に、NorEvalはノルウェー語の理解と生成を対象とし、人間のベースラインを確立し、ノルウェー語の公式標準であるBokm{\aa}lとNynorskの両方に焦点を当てている。
すべてのデータセットと100以上の人書きプロンプトがLM Evaluation Harnessに統合され、フレキシブルで再現可能な評価が保証されます。
我々はNorEvalの設計について述べ、様々なシナリオにおいてノルウェー向けの19のオープンソース事前学習および指導訓練LMのベンチマーク結果を示す。
ベンチマーク,評価フレームワーク,アノテーション資料が公開されている。
関連論文リスト
- A Collection of Question Answering Datasets for Norwegian [6.149436325733799]
このデータは、世界知識、常識推論、真理性、ノルウェーに関する知識など、幅広いスキルと知識ドメインをカバーしている。
私たちのデータセットは10万以上の質問応答ペアで構成されており、ネイティブスピーカーによって作成されています。
ほとんどのLMは、ニノルスクよりもボクマールの方が優れており、常識的推論にほとんど苦労しており、しばしば疑問に対する答えを生み出すことに不合理である。
論文 参考訳(メタデータ) (2025-01-19T17:42:48Z) - Benchmarking Abstractive Summarisation: A Dataset of Human-authored Summaries of Norwegian News Articles [8.083472758337559]
ノルウェーのニュース記事の高品質な人間によるサマリーのデータセットを紹介する。
このデータセットは、生成言語モデルの抽象的な要約能力のベンチマークを目的としている。
論文 参考訳(メタデータ) (2025-01-13T22:08:29Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - NLEBench+NorGLM: A Comprehensive Empirical Analysis and Benchmark Dataset for Generative Language Models in Norwegian [4.062031248854444]
ノルウェーの人口はわずか500万人で、NLPのタスクで最も印象的なブレークスルーの中では、表現力に乏しい。
このギャップを埋めるために、既存のノルウェーデータセットをコンパイルし、4つのノルウェーオープン言語モデルを事前訓練しました。
GPT-3.5はノルウェーの文脈を理解する能力に限界があることがわかった。
論文 参考訳(メタデータ) (2023-12-03T08:09:45Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - NorBench -- A Benchmark for Norwegian Language Models [7.395163289937936]
NorBench: 標準化されたデータ分割と評価メトリクスに基づいてノルウェー語モデル(LM)を評価するためのNLPタスクとプローブのスイート。
ノルウェー語モデル(エンコーダとエンコーダ-デコーダの両方をベースとした)も導入する。
我々は、NorBenchの異なるベンチマークテストと比較して、それらのパフォーマンスと既存のLMを比較し、分析する。
論文 参考訳(メタデータ) (2023-05-06T00:20:24Z) - GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。
GEMv2は51言語で40のドキュメントデータセットをサポートする。
すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) (2022-06-22T17:52:30Z) - Russian SuperGLUE 1.1: Revising the Lessons not Learned by Russian NLP
models [53.95094814056337]
本稿では,ロシアNLPモデルのGLUEを改良したベンチマークである,ロシアのSuperGLUE 1.1を提案する。
新バージョンには、技術的、ユーザエクスペリエンス、方法論的改善が多数含まれている。
我々は,ロシアのSuperGLUEをオープンソースモデルMOROCCOの産業的評価のためのフレームワークに統合する。
論文 参考訳(メタデータ) (2022-02-15T23:45:30Z) - NorDiaChange: Diachronic Semantic Change Dataset for Norwegian [63.65426535861836]
NorDiaChangeはノルウェーにおける最初のダイアクロニックなセマンティックチェンジデータセットである。
ノルウェーの約80の名詞が、時間とともに格付けされた意味変化で注釈付けされている。
論文 参考訳(メタデータ) (2022-01-13T18:27:33Z) - Large-Scale Contextualised Language Modelling for Norwegian [7.5722195869569]
本稿では,elmo と bert の両フレームワークに基づく,ノルウェー初の大規模単言語モデルを提案する。
トレーニングプロセスの詳細に加えて,ノルウェーにおけるNLPタスクのスイートに対して,コントラスト的なベンチマーク結果を示す。
論文 参考訳(メタデータ) (2021-04-13T23:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。