論文の概要: ORCA: A Challenging Benchmark for Arabic Language Understanding
- arxiv url: http://arxiv.org/abs/2212.10758v1
- Date: Wed, 21 Dec 2022 04:35:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 13:43:59.295262
- Title: ORCA: A Challenging Benchmark for Arabic Language Understanding
- Title(参考訳): ORCA:アラビア語理解のためのベンチマーク
- Authors: AbdelRahim Elmadany, El Moatez Billah Nagoudi, Muhammad Abdul-Mageed
- Abstract要約: ORCAはアラビア語理解評価のための公開ベンチマークである。
アラビア語NLUの現在の進歩を測定するため、ORCAを用いて18の多言語モデルとアラビア語モデルを比較した。
- 参考スコア(独自算出の注目度): 8.9379057739817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to their crucial role in all NLP, several benchmarks have been proposed
to evaluate pretrained language models. In spite of these efforts, no public
benchmark of diverse nature currently exists for evaluation of Arabic. This
makes it challenging to measure progress for both Arabic and multilingual
language models. This challenge is compounded by the fact that any benchmark
targeting Arabic needs to take into account the fact that Arabic is not a
single language but rather a collection of languages and varieties. In this
work, we introduce ORCA, a publicly available benchmark for Arabic language
understanding evaluation. ORCA is carefully constructed to cover diverse Arabic
varieties and a wide range of challenging Arabic understanding tasks exploiting
60 different datasets across seven NLU task clusters. To measure current
progress in Arabic NLU, we use ORCA to offer a comprehensive comparison between
18 multilingual and Arabic language models. We also provide a public
leaderboard with a unified single-number evaluation metric (ORCA score) to
facilitate future research.
- Abstract(参考訳): すべてのNLPにおいて重要な役割を担っているため、事前訓練された言語モデルを評価するためにいくつかのベンチマークが提案されている。
これらの努力にもかかわらず、アラビア語の評価のための様々な性質の公開ベンチマークは現存していない。
これにより、アラビア語と多言語の両方の言語モデルの進歩を測定することが困難になる。
この課題は、アラビア語を対象とするベンチマークは、アラビア語が単一の言語ではなく、言語や品種の集合であるという事実を考慮する必要があるという事実によって複雑化している。
本研究では,アラビア語理解評価のためのベンチマークであるORCAを紹介する。
ORCAは、7つのNLUタスククラスタにわたる60の異なるデータセットを活用する、さまざまなアラビアの多様性と幅広いアラビア理解タスクをカバーするために、慎重に構築されている。
アラビア語NLUの現在の進歩を測定するため、ORCAを用いて18の多言語モデルとアラビア語モデルを比較した。
また、将来の研究を促進するために、統一された単数評価基準(ORCAスコア)を備えた公開リーダーボードも提供する。
関連論文リスト
- ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [53.1913348687902]
アラビア語に対する最初のマルチタスク言語理解ベンチマークであるアラビアMMLUを提示する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575の多重選択質問からなる。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - Natural Language Processing for Dialects of a Language: A Survey [59.78833854847185]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - ALDi: Quantifying the Arabic Level of Dialectness of Text [17.37857915257019]
我々は、アラビア語話者が方言のスペクトルを知覚し、文レベルでアラビア方言レベル(ALDi)として機能すると主張している。
AOC-ALDiの詳細な分析を行い、訓練したモデルが他のコーパスの方言のレベルを効果的に識別できることを示す。
論文 参考訳(メタデータ) (2023-10-20T18:07:39Z) - AceGPT, Localizing Large Language Models in Arabic [74.47331062873107]
本稿では,アラビア語を対象とする局所的大規模言語モデル(LLM)の開発に着目する。
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答などを含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122
Language Variants [82.6462524808751]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Dolphin: A Challenging and Diverse Benchmark for Arabic NLG [21.06280737470819]
Dolphinは、自然言語生成(NLG)評価フレームワークの必要性に対処する新しいベンチマークである。
Dolphinは、50のテストスプリットにまたがる40の多様性と代表的なパブリックデータセットからなる、実質的なコーパスで構成されている。
アラビア語および多言語モデルの性能と一般化能力を評価するための新しい標準を設定している。
論文 参考訳(メタデータ) (2023-05-24T10:24:10Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - TCE at Qur'an QA 2022: Arabic Language Question Answering Over Holy
Qur'an Using a Post-Processed Ensemble of BERT-based Models [0.0]
アラビア語は神聖なクルアーンの言語であり、世界中の18億人の人々の神聖なテキストである。
本稿では,BERTモデルのアラビア変種に基づくアンサンブル学習モデルを提案する。
本システムでは,公式テストセットでPRR(Partial Reciprocal Rank)スコアが56.6%に達する。
論文 参考訳(メタデータ) (2022-06-03T13:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。