論文の概要: Dolphin: A Challenging and Diverse Benchmark for Arabic NLG
- arxiv url: http://arxiv.org/abs/2305.14989v2
- Date: Tue, 24 Oct 2023 17:48:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 00:32:39.714657
- Title: Dolphin: A Challenging and Diverse Benchmark for Arabic NLG
- Title(参考訳): Dolphin: アラビア語のNLGのベンチマーク
- Authors: El Moatez Billah Nagoudi, AbdelRahim Elmadany, Ahmed El-Shangiti,
Muhammad Abdul-Mageed
- Abstract要約: Dolphinは、自然言語生成(NLG)評価フレームワークの必要性に対処する新しいベンチマークである。
Dolphinは、50のテストスプリットにまたがる40の多様性と代表的なパブリックデータセットからなる、実質的なコーパスで構成されている。
アラビア語および多言語モデルの性能と一般化能力を評価するための新しい標準を設定している。
- 参考スコア(独自算出の注目度): 21.06280737470819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Dolphin, a novel benchmark that addresses the need for a natural
language generation (NLG) evaluation framework dedicated to the wide collection
of Arabic languages and varieties. The proposed benchmark encompasses a broad
range of 13 different NLG tasks, including dialogue generation, question
answering, machine translation, summarization, among others. Dolphin comprises
a substantial corpus of 40 diverse and representative public datasets across 50
test splits, carefully curated to reflect real-world scenarios and the
linguistic richness of Arabic. It sets a new standard for evaluating the
performance and generalization capabilities of Arabic and multilingual models,
promising to enable researchers to push the boundaries of current
methodologies. We provide an extensive analysis of Dolphin, highlighting its
diversity and identifying gaps in current Arabic NLG research. We also offer a
public leaderboard that is both interactive and modular and evaluate several
models on our benchmark, allowing us to set strong baselines against which
researchers can compare.
- Abstract(参考訳): 我々は、アラビア語の言語と品種の広範なコレクションに特化した自然言語生成(NLG)評価フレームワークの必要性に対処する新しいベンチマークであるDolphinを紹介する。
提案したベンチマークは、対話生成、質問応答、機械翻訳、要約などを含む13種類のNLGタスクを含む。
イルカは50のテストスプリットにまたがる40の多様で代表的な公開データセットで構成されており、実世界のシナリオとアラビア語の言語豊かさを反映して注意深くキュレートされている。
アラビア語および多言語モデルの性能と一般化能力を評価するための新しい標準を設定し、研究者が現在の方法論の境界を押し上げることを約束する。
我々はDolphinを広範囲に分析し、その多様性と現在のアラビアのNLG研究のギャップを明らかにする。
また、インタラクティブでモジュール化された公開のリーダーボードを提供し、ベンチマークでいくつかのモデルを評価し、研究者が比較できる強力なベースラインを設定することができます。
関連論文リスト
- Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - LEXTREME: A Multi-Lingual and Multi-Task Benchmark for the Legal Domain [24.54412069999257]
法的なNLP文献を調査し、LEXTREMEを作成する24言語を含む11のデータセットを選択した。
ベストベースライン(XLM-R大)は、両方のデータセットアグリゲーションが言語アグリゲーションスコア61.3を達成する。
これは、LEXTREMEが依然として非常に困難であり、改善の余地が十分にあることを示している。
論文 参考訳(メタデータ) (2023-01-30T18:05:08Z) - ORCA: A Challenging Benchmark for Arabic Language Understanding [8.9379057739817]
ORCAはアラビア語理解評価のための公開ベンチマークである。
アラビア語NLUの現在の進歩を測定するため、ORCAを用いて18の多言語モデルとアラビア語モデルを比較した。
論文 参考訳(メタデータ) (2022-12-21T04:35:43Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - LinCE: A Centralized Benchmark for Linguistic Code-switching Evaluation [13.947879344871442]
言語コードスイッチング評価(LinCE)のためのベンチマークを提案する。
LinCEは4つの異なるコード変更言語ペアをカバーする10のコーパスを結合する。
LSTM,ELMo,多言語BERTなど,さまざまな人気モデルのスコアを提供する。
論文 参考訳(メタデータ) (2020-05-09T00:00:08Z) - KLEJ: Comprehensive Benchmark for Polish Language Understanding [4.702729080310267]
ポーランド語理解のための総合的なマルチタスクベンチマークを導入する。
また、ポーランド語に特化して訓練されたトランスフォーマーベースのモデルであるHerBERTもリリースしました。
論文 参考訳(メタデータ) (2020-05-01T21:55:40Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。