論文の概要: NorBench -- A Benchmark for Norwegian Language Models
- arxiv url: http://arxiv.org/abs/2305.03880v1
- Date: Sat, 6 May 2023 00:20:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 19:04:32.679960
- Title: NorBench -- A Benchmark for Norwegian Language Models
- Title(参考訳): norbench - ノルウェーの言語モデルのベンチマーク
- Authors: David Samuel, Andrey Kutuzov, Samia Touileb, Erik Velldal, Lilja
{\O}vrelid, Egil R{\o}nningstad, Elina Sigdel and Anna Palatkina
- Abstract要約: NorBench: 標準化されたデータ分割と評価メトリクスに基づいてノルウェー語モデル(LM)を評価するためのNLPタスクとプローブのスイート。
ノルウェー語モデル(エンコーダとエンコーダ-デコーダの両方をベースとした)も導入する。
我々は、NorBenchの異なるベンチマークテストと比較して、それらのパフォーマンスと既存のLMを比較し、分析する。
- 参考スコア(独自算出の注目度): 7.395163289937936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present NorBench: a streamlined suite of NLP tasks and probes for
evaluating Norwegian language models (LMs) on standardized data splits and
evaluation metrics. We also introduce a range of new Norwegian language models
(both encoder and encoder-decoder based). Finally, we compare and analyze their
performance, along with other existing LMs, across the different benchmark
tests of NorBench.
- Abstract(参考訳): 標準化されたデータ分割と評価指標に基づいてノルウェー語モデル(LM)を評価するためのNorBench: NLPタスクとプローブの合理化スイートを提案する。
また,ノルウェーの新しい言語モデル(エンコーダとエンコーダ-デコーダベースの両方)についても紹介する。
最後に、NorBenchの異なるベンチマークテストと比較して、それらのパフォーマンスと既存のLMを比較し、分析する。
関連論文リスト
- DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - NLEBench+NorGLM: A Comprehensive Empirical Analysis and Benchmark Dataset for Generative Language Models in Norwegian [4.062031248854444]
ノルウェーの人口はわずか500万人で、NLPのタスクで最も印象的なブレークスルーの中では、表現力に乏しい。
このギャップを埋めるために、既存のノルウェーデータセットをコンパイルし、4つのノルウェーオープン言語モデルを事前訓練しました。
GPT-3.5はノルウェーの文脈を理解する能力に限界があることがわかった。
論文 参考訳(メタデータ) (2023-12-03T08:09:45Z) - NoCoLA: The Norwegian Corpus of Linguistic Acceptability [2.538209532048867]
言語モデルを評価するために,ノルウェーの2つの新しいデータセットを提案する。
NoCoLA_classは教師付きバイナリ分類タスクであり、目的は許容可能な文と許容できない文を区別することである。
NoCoLA_zeroは、完全にゼロショットで言語モデルの文法的判断を評価するための純粋に診断タスクである。
論文 参考訳(メタデータ) (2023-06-13T14:11:19Z) - ScandEval: A Benchmark for Scandinavian Natural Language Processing [0.0]
本稿では,スカンジナビア語における4つのタスクに対して事前学習したモデルをベンチマークする,スカンジナビアのベンチマークプラットフォームであるScandEvalを紹介する。
言語的受容性と質問応答という2つのタスクで使用されるデータセットは新しいものだ。
我々は,Hugging Face Hubにアップロードされたモデルを,再現可能な結果でベンチマークすることができるPythonパッケージとコマンドラインインターフェースであるScandevalを開発し,リリースする。
論文 参考訳(メタデータ) (2023-04-03T11:51:46Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。
GEMv2は51言語で40のドキュメントデータセットをサポートする。
すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) (2022-06-22T17:52:30Z) - Quality-Aware Decoding for Neural Machine Translation [64.24934199944875]
ニューラルネットワーク翻訳(NMT)のための品質認識復号法を提案する。
参照フリーおよび参照ベースMT評価における最近のブレークスルーを,様々な推論手法を用いて活用する。
品質認識復号化は、最先端の自動測定値と人的評価値の両方で、MAPベースの復号化を一貫して上回ります。
論文 参考訳(メタデータ) (2022-05-02T15:26:28Z) - Russian SuperGLUE 1.1: Revising the Lessons not Learned by Russian NLP
models [53.95094814056337]
本稿では,ロシアNLPモデルのGLUEを改良したベンチマークである,ロシアのSuperGLUE 1.1を提案する。
新バージョンには、技術的、ユーザエクスペリエンス、方法論的改善が多数含まれている。
我々は,ロシアのSuperGLUEをオープンソースモデルMOROCCOの産業的評価のためのフレームワークに統合する。
論文 参考訳(メタデータ) (2022-02-15T23:45:30Z) - MOROCCO: Model Resource Comparison Framework [61.444083353087294]
我々は,50以上のNLUタスクをサポートするttjiant環境と互換性のある言語モデルを比較するフレームワークMOROCCOを提案する。
異なる言語で2つのGLUEライクなスイートに適用可能であることを示す。
論文 参考訳(メタデータ) (2021-04-29T13:01:27Z) - Operationalizing a National Digital Library: The Case for a Norwegian
Transformer Model [0.0]
国立図書館でデジタルコレクションとデジタルコレクションから大規模なトレーニングセットを構築するプロセスを紹介します。
ノルウェー語のための変換器(BERT)に基づく双方向表現は、複数のトークンおよびシーケンス分類タスクにおいて多言語BERT(mBERT)モデルより優れている。
論文 参考訳(メタデータ) (2021-04-19T20:36:24Z) - Large-Scale Contextualised Language Modelling for Norwegian [7.5722195869569]
本稿では,elmo と bert の両フレームワークに基づく,ノルウェー初の大規模単言語モデルを提案する。
トレーニングプロセスの詳細に加えて,ノルウェーにおけるNLPタスクのスイートに対して,コントラスト的なベンチマーク結果を示す。
論文 参考訳(メタデータ) (2021-04-13T23:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。