論文の概要: DUMB: A Benchmark for Smart Evaluation of Dutch Models
- arxiv url: http://arxiv.org/abs/2305.13026v2
- Date: Fri, 13 Oct 2023 10:43:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 17:45:43.489144
- Title: DUMB: A Benchmark for Smart Evaluation of Dutch Models
- Title(参考訳): dumb:オランダモデルのスマート評価のためのベンチマーク
- Authors: Wietse de Vries, Martijn Wieling and Malvina Nissim
- Abstract要約: オランダのモデルベンチマークであるDUMBを紹介します。このベンチマークには、低、中、高リソースタスクのためのさまざまなデータセットが含まれています。
RER(Relative Error Reduction)は、言語モデルのDUMB性能を強力なベースラインと比較する。
最高性能はDeBERTaV3(大型)、XLM-R(大型)、mDeBERTaV3(ベース)である。
- 参考スコア(独自算出の注目度): 23.811515104842826
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce the Dutch Model Benchmark: DUMB. The benchmark includes a
diverse set of datasets for low-, medium- and high-resource tasks. The total
set of nine tasks includes four tasks that were previously not available in
Dutch. Instead of relying on a mean score across tasks, we propose Relative
Error Reduction (RER), which compares the DUMB performance of language models
to a strong baseline which can be referred to in the future even when assessing
different sets of language models. Through a comparison of 14 pre-trained
language models (mono- and multi-lingual, of varying sizes), we assess the
internal consistency of the benchmark tasks, as well as the factors that likely
enable high performance. Our results indicate that current Dutch monolingual
models under-perform and suggest training larger Dutch models with other
architectures and pre-training objectives. At present, the highest performance
is achieved by DeBERTaV3 (large), XLM-R (large) and mDeBERTaV3 (base). In
addition to highlighting best strategies for training larger Dutch models, DUMB
will foster further research on Dutch. A public leaderboard is available at
https://dumbench.nl.
- Abstract(参考訳): オランダのモデルベンチマークであるDUMBを紹介します。
ベンチマークには、低、中、高リソースタスクのためのさまざまなデータセットが含まれている。
9つのタスクの合計セットには、以前はオランダで利用できなかった4つのタスクが含まれる。
タスク間の平均スコアに頼る代わりに,言語モデルのDUMB性能を,言語モデルの異なるセットを評価する場合でも将来参照可能な強力なベースラインと比較する,相対誤差低減(RER)を提案する。
事前訓練された14の言語モデル(単言語と多言語、様々なサイズ)を比較して、ベンチマークタスクの内部の一貫性と高いパフォーマンスを実現する要因を評価する。
以上の結果から,現在のオランダのモノリンガルモデルはパフォーマンスが低く,他のアーキテクチャと事前学習目標を用いたより大きなオランダモデルのトレーニングが提案されている。
現在、最高パフォーマンスはDeBERTaV3(大規模)、XLM-R(大規模)、mDeBERTaV3(ベース)である。
より大規模なオランダモデルを訓練するための最良の戦略を強調することに加えて、DUMBはオランダに関するさらなる研究を促進する。
public leaderboardはhttps://dumbench.nl.com/で入手できる。
関連論文リスト
- P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。
以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。
我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - MTEB-French: Resources for French Sentence Embedding Evaluation and Analysis [1.5761916307614148]
本稿では,フランス語の文埋め込みに関する最初のベンチマークを提案する。
51個の埋め込みモデルを大規模に比較した。
すべてのタスクにおいてモデルが最良でない場合でも、文類似性に基づいて事前訓練された大規模多言語モデルは非常によく機能することがわかった。
論文 参考訳(メタデータ) (2024-05-30T20:34:37Z) - Language Resources for Dutch Large Language Modelling [0.0]
Llama 2 13Bモデルの微調整版を2種類導入する。
我々は、複数の世代タスクにおける(Dutch)モデルのパフォーマンスを追跡するためのリーダーボードを提供する。
論文 参考訳(メタデータ) (2023-12-20T09:06:06Z) - Data-Efficient French Language Modeling with CamemBERTa [0.0]
本稿では,DeBERTaV3アーキテクチャとトレーニング目標に基づいて構築された,フランスのDeBERTaモデルであるCamemBERTaを紹介する。
我々は、さまざまなフランス語の下流タスクとデータセットに対して、我々のモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-06-02T12:45:34Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Harnessing Multilinguality in Unsupervised Machine Translation for Rare
Languages [48.28540903568198]
マルチリンガル性は低リソース環境において教師なしシステムの実現に不可欠であることを示す。
我々は,5つの低リソース言語(グジャラート語,カザフ語,ネパール語,シンハラ語,トルコ語)について,英語方向と英語方向の単一モデルを提案する。
我々は、これらの言語の現在最先端の教師なしベースラインを全て上回り、最大14.4BLEUのゲインを得る。
論文 参考訳(メタデータ) (2020-09-23T15:07:33Z) - RobBERT: a Dutch RoBERTa-based Language Model [9.797319790710711]
我々はRoBERTaを使ってRobBERTと呼ばれるオランダ語のモデルをトレーニングします。
各種タスクにおけるその性能および微調整データセットサイズの重要性を計測する。
RobBERTは様々なタスクの最先端の結果を改善し、特に小さなデータセットを扱う場合、他のモデルよりもはるかに優れています。
論文 参考訳(メタデータ) (2020-01-17T13:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。