論文の概要: Dolphin: A Challenging and Diverse Benchmark for Arabic NLG
- arxiv url: http://arxiv.org/abs/2305.14989v1
- Date: Wed, 24 May 2023 10:24:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 17:03:25.641500
- Title: Dolphin: A Challenging and Diverse Benchmark for Arabic NLG
- Title(参考訳): Dolphin: アラビア語のNLGのベンチマーク
- Authors: El Moatez Billah Nagoudi, Ahmed El-Shangiti, AbdelRahim Elmadany,
Muhammad Abdul-Mageed
- Abstract要約: ドルフィン(Dolphin)は、アラビア語の言語や品種を幅広く収集するための評価フレームワークの必要性に対処する新しいベンチマークである。
Dolphinは、50のテストスプリットにまたがる40の多様性と代表的なパブリックデータセットからなる、実質的なコーパスで構成されている。
アラビア語および多言語モデルの性能と一般化能力を評価するための新しい標準を設定している。
- 参考スコア(独自算出の注目度): 7.952582509792971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Dolphin, a novel benchmark that addresses the need for an
evaluation framework for the wide collection of Arabic languages and varieties.
The proposed benchmark encompasses a broad range of 13 different NLG tasks,
including text summarization, machine translation, question answering, and
dialogue generation, among others. Dolphin comprises a substantial corpus of 40
diverse and representative public datasets across 50 test splits, carefully
curated to reflect real-world scenarios and the linguistic richness of Arabic.
It sets a new standard for evaluating the performance and generalization
capabilities of Arabic and multilingual models, promising to enable researchers
to push the boundaries of current methodologies. We provide an extensive
analysis of Dolphin, highlighting its diversity and identifying gaps in current
Arabic NLG research. We also evaluate several Arabic and multilingual models on
our benchmark, allowing us to set strong baselines against which researchers
can compare.
- Abstract(参考訳): 我々は、アラビア語の言語や品種を幅広く収集するための評価フレームワークの必要性に対処する新しいベンチマークであるDolphinを紹介する。
提案するベンチマークは,テキスト要約,機械翻訳,質問応答,対話生成など,13種類のNLGタスクを含む。
イルカは50のテストスプリットにまたがる40の多様で代表的な公開データセットで構成されており、実世界のシナリオとアラビア語の言語豊かさを反映して注意深くキュレートされている。
アラビア語および多言語モデルの性能と一般化能力を評価するための新しい標準を設定し、研究者が現在の方法論の境界を押し上げることを約束する。
我々はDolphinを広範囲に分析し、その多様性と現在のアラビアのNLG研究のギャップを明らかにする。
また、ベンチマークでアラビア語と多言語モデルを評価し、研究者が比較できる強力なベースラインを設定することができます。
関連論文リスト
- Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - LEXTREME: A Multi-Lingual and Multi-Task Benchmark for the Legal Domain [24.54412069999257]
法的なNLP文献を調査し、LEXTREMEを作成する24言語を含む11のデータセットを選択した。
ベストベースライン(XLM-R大)は、両方のデータセットアグリゲーションが言語アグリゲーションスコア61.3を達成する。
これは、LEXTREMEが依然として非常に困難であり、改善の余地が十分にあることを示している。
論文 参考訳(メタデータ) (2023-01-30T18:05:08Z) - ORCA: A Challenging Benchmark for Arabic Language Understanding [8.9379057739817]
ORCAはアラビア語理解評価のための公開ベンチマークである。
アラビア語NLUの現在の進歩を測定するため、ORCAを用いて18の多言語モデルとアラビア語モデルを比較した。
論文 参考訳(メタデータ) (2022-12-21T04:35:43Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - LinCE: A Centralized Benchmark for Linguistic Code-switching Evaluation [13.947879344871442]
言語コードスイッチング評価(LinCE)のためのベンチマークを提案する。
LinCEは4つの異なるコード変更言語ペアをカバーする10のコーパスを結合する。
LSTM,ELMo,多言語BERTなど,さまざまな人気モデルのスコアを提供する。
論文 参考訳(メタデータ) (2020-05-09T00:00:08Z) - KLEJ: Comprehensive Benchmark for Polish Language Understanding [4.702729080310267]
ポーランド語理解のための総合的なマルチタスクベンチマークを導入する。
また、ポーランド語に特化して訓練されたトランスフォーマーベースのモデルであるHerBERTもリリースしました。
論文 参考訳(メタデータ) (2020-05-01T21:55:40Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。