Fugu-MT 論文翻訳(概要): Dolphin: A Challenging and Diverse Benchmark for Arabic NLG

論文の概要: Dolphin: A Challenging and Diverse Benchmark for Arabic NLG

arxiv url: http://arxiv.org/abs/2305.14989v1
Date: Wed, 24 May 2023 10:24:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-25 17:03:25.641500
Title: Dolphin: A Challenging and Diverse Benchmark for Arabic NLG
Title（参考訳）: Dolphin: アラビア語のNLGのベンチマーク
Authors: El Moatez Billah Nagoudi, Ahmed El-Shangiti, AbdelRahim Elmadany, Muhammad Abdul-Mageed
Abstract要約: ドルフィン(Dolphin)は、アラビア語の言語や品種を幅広く収集するための評価フレームワークの必要性に対処する新しいベンチマークである。 Dolphinは、50のテストスプリットにまたがる40の多様性と代表的なパブリックデータセットからなる、実質的なコーパスで構成されている。アラビア語および多言語モデルの性能と一般化能力を評価するための新しい標準を設定している。
参考スコア（独自算出の注目度）: 7.952582509792971
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present Dolphin, a novel benchmark that addresses the need for an evaluation framework for the wide collection of Arabic languages and varieties. The proposed benchmark encompasses a broad range of 13 different NLG tasks, including text summarization, machine translation, question answering, and dialogue generation, among others. Dolphin comprises a substantial corpus of 40 diverse and representative public datasets across 50 test splits, carefully curated to reflect real-world scenarios and the linguistic richness of Arabic. It sets a new standard for evaluating the performance and generalization capabilities of Arabic and multilingual models, promising to enable researchers to push the boundaries of current methodologies. We provide an extensive analysis of Dolphin, highlighting its diversity and identifying gaps in current Arabic NLG research. We also evaluate several Arabic and multilingual models on our benchmark, allowing us to set strong baselines against which researchers can compare.
Abstract（参考訳）: 我々は、アラビア語の言語や品種を幅広く収集するための評価フレームワークの必要性に対処する新しいベンチマークであるDolphinを紹介する。提案するベンチマークは,テキスト要約,機械翻訳,質問応答,対話生成など,13種類のNLGタスクを含む。イルカは50のテストスプリットにまたがる40の多様で代表的な公開データセットで構成されており、実世界のシナリオとアラビア語の言語豊かさを反映して注意深くキュレートされている。アラビア語および多言語モデルの性能と一般化能力を評価するための新しい標準を設定し、研究者が現在の方法論の境界を押し上げることを約束する。我々はDolphinを広範囲に分析し、その多様性と現在のアラビアのNLG研究のギャップを明らかにする。また、ベンチマークでアラビア語と多言語モデルを評価し、研究者が比較できる強力なベースラインを設定することができます。

関連論文リスト

BALSAM: A Platform for Benchmarking Arabic Large Language Models [34.50348949235453]
BALSAMは、アラビア語のLLM開発と評価を進めることを目的とした総合的なコミュニティ主導のベンチマークである。 14の幅広いカテゴリから78のNLPタスクが含まれており、52Kのサンプルは37Kテストと15K開発に分割されている。
論文参考訳（メタデータ） (2025-07-30T12:16:39Z)
MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [60.52580061637301]
MMLU-ProXは、言語毎に約11,829の質問を持つ、13の型的多様言語をカバーする包括的なベンチマークである。 5ショットチェーン(CoT)とゼロショットプロンプト戦略を用いて25の最先端の大規模言語モデル(LLM)を評価し,言語的・文化的境界を越えてその性能を解析した。我々の実験は、ハイリソース言語から低リソース言語への一貫したパフォーマンス劣化を示し、最高のモデルは英語で70%以上の精度を達成しているが、Swahiliのような言語では40%程度にまで低下している。
論文参考訳（メタデータ） (2025-03-13T15:59:20Z)
Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文参考訳（メタデータ） (2024-08-01T04:56:13Z)
DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文参考訳（メタデータ） (2024-03-16T20:18:36Z)
ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。 35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文参考訳（メタデータ） (2024-02-20T09:07:41Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
LEXTREME: A Multi-Lingual and Multi-Task Benchmark for the Legal Domain [24.54412069999257]
法的なNLP文献を調査し、LEXTREMEを作成する24言語を含む11のデータセットを選択した。ベストベースライン(XLM-R大)は、両方のデータセットアグリゲーションが言語アグリゲーションスコア61.3を達成する。これは、LEXTREMEが依然として非常に困難であり、改善の余地が十分にあることを示している。
論文参考訳（メタデータ） (2023-01-30T18:05:08Z)
ORCA: A Challenging Benchmark for Arabic Language Understanding [8.9379057739817]
ORCAはアラビア語理解評価のための公開ベンチマークである。アラビア語NLUの現在の進歩を測定するため、ORCAを用いて18の多言語モデルとアラビア語モデルを比較した。
論文参考訳（メタデータ） (2022-12-21T04:35:43Z)
Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。これらのデータセットは10以上のプログラミング言語をカバーする。コード生成モデルの性能を多言語で評価することができる。
論文参考訳（メタデータ） (2022-10-26T17:17:06Z)
LinCE: A Centralized Benchmark for Linguistic Code-switching Evaluation [13.947879344871442]
言語コードスイッチング評価(LinCE)のためのベンチマークを提案する。 LinCEは4つの異なるコード変更言語ペアをカバーする10のコーパスを結合する。 LSTM,ELMo,多言語BERTなど,さまざまな人気モデルのスコアを提供する。
論文参考訳（メタデータ） (2020-05-09T00:00:08Z)
KLEJ: Comprehensive Benchmark for Polish Language Understanding [4.702729080310267]
ポーランド語理解のための総合的なマルチタスクベンチマークを導入する。また、ポーランド語に特化して訓練されたトランスフォーマーベースのモデルであるHerBERTもリリースしました。
論文参考訳（メタデータ） (2020-05-01T21:55:40Z)
XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文参考訳（メタデータ） (2020-03-24T19:09:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。