論文の概要: ORCA: A Challenging Benchmark for Arabic Language Understanding
- arxiv url: http://arxiv.org/abs/2212.10758v2
- Date: Mon, 29 May 2023 18:27:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 02:08:47.170985
- Title: ORCA: A Challenging Benchmark for Arabic Language Understanding
- Title(参考訳): ORCA:アラビア語理解のためのベンチマーク
- Authors: AbdelRahim Elmadany, El Moatez Billah Nagoudi, Muhammad Abdul-Mageed
- Abstract要約: ORCAはアラビア語理解評価のための公開ベンチマークである。
アラビア語NLUの現在の進歩を測定するため、ORCAを用いて18の多言語モデルとアラビア語モデルを比較した。
- 参考スコア(独自算出の注目度): 8.9379057739817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to their crucial role in all NLP, several benchmarks have been proposed
to evaluate pretrained language models. In spite of these efforts, no public
benchmark of diverse nature currently exists for evaluation of Arabic. This
makes it challenging to measure progress for both Arabic and multilingual
language models. This challenge is compounded by the fact that any benchmark
targeting Arabic needs to take into account the fact that Arabic is not a
single language but rather a collection of languages and varieties. In this
work, we introduce ORCA, a publicly available benchmark for Arabic language
understanding evaluation. ORCA is carefully constructed to cover diverse Arabic
varieties and a wide range of challenging Arabic understanding tasks exploiting
60 different datasets across seven NLU task clusters. To measure current
progress in Arabic NLU, we use ORCA to offer a comprehensive comparison between
18 multilingual and Arabic language models. We also provide a public
leaderboard with a unified single-number evaluation metric (ORCA score) to
facilitate future research.
- Abstract(参考訳): すべてのNLPにおいて重要な役割を担っているため、事前訓練された言語モデルを評価するためにいくつかのベンチマークが提案されている。
これらの努力にもかかわらず、アラビア語の評価のための様々な性質の公開ベンチマークは現存していない。
これにより、アラビア語と多言語の両方の言語モデルの進歩を測定することが困難になる。
この課題は、アラビア語を対象とするベンチマークは、アラビア語が単一の言語ではなく、言語や品種の集合であるという事実を考慮する必要があるという事実によって複雑化している。
本研究では,アラビア語理解評価のためのベンチマークであるORCAを紹介する。
ORCAは、7つのNLUタスククラスタにわたる60の異なるデータセットを活用する、さまざまなアラビアの多様性と幅広いアラビア理解タスクをカバーするために、慎重に構築されている。
アラビア語NLUの現在の進歩を測定するため、ORCAを用いて18の多言語モデルとアラビア語モデルを比較した。
また、将来の研究を促進するために、統一された単数評価基準(ORCAスコア)を備えた公開リーダーボードも提供する。
関連論文リスト
- A Large and Balanced Corpus for Fine-grained Arabic Readability Assessment [10.853984915007961]
本稿では,バランスドアラビア可読性評価コーパスBARECを紹介する。
BARECは、100万語を超える68,182の文で構成され、19の可読性レベルをカバーするために慎重にキュレートされている。
コーパスは、アノテーターの大規模なチームによって手動で注釈付けされた。
論文 参考訳(メタデータ) (2025-02-19T08:16:11Z) - AIN: The Arabic INclusive Large Multimodal Model [71.29419186696138]
AIN (英語: AIN) は、英語とアラビア語で卓越するように設計された英語とアラビア語のバイリンガルLMMである。
AINは最先端のアラビア語のパフォーマンスを実証する一方で、英語の視覚能力も優れている。
AINの優れた能力は、先進的なマルチモーダル生成AIツールでアラビア語話者を強化するための重要なステップである。
論文 参考訳(メタデータ) (2025-01-31T18:58:20Z) - Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - AraDiCE: Benchmarks for Dialectal and Cultural Capabilities in LLMs [22.121471902726892]
本稿ではアラビア方言と文化評価のベンチマークであるAraDiCEを紹介する。
湾岸地域、エジプト地域、レバント地域の文化意識を評価するために設計された最初のきめ細かいベンチマーク。
論文 参考訳(メタデータ) (2024-09-17T17:59:25Z) - Strategies for Arabic Readability Modeling [9.976720880041688]
自動可読性評価は、教育、コンテンツ分析、アクセシビリティのためのNLPアプリケーションの構築に関係している。
本稿では,アラビア可読性評価に関する実験結果について,多種多様なアプローチを用いて述べる。
論文 参考訳(メタデータ) (2024-07-03T11:54:11Z) - From Multiple-Choice to Extractive QA: A Case Study for English and Arabic [51.13706104333848]
既存の多言語データセットを新しいNLPタスクに再利用する可能性について検討する。
本稿では,英語および現代標準アラビア語に対するアノテーションガイドラインと並列EQAデータセットを提案する。
我々は、残りの120のBELEBELE言語変種に対して、他の人が我々のアプローチを適用するのを助けることを目指しており、その多くがリソース不足と見なされている。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - ArabicaQA: A Comprehensive Dataset for Arabic Question Answering [13.65056111661002]
アラビカQAは、アラビア語で機械読解とオープンドメイン質問応答のための最初の大規模データセットである。
また、アラビア語ウィキペディアコーパスで訓練された最初の高密度経路探索モデルであるAraDPRを提示する。
論文 参考訳(メタデータ) (2024-03-26T16:37:54Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。