論文の概要: Adapting MARBERT for Improved Arabic Dialect Identification: Submission
to the NADI 2021 Shared Task
- arxiv url: http://arxiv.org/abs/2103.01065v1
- Date: Mon, 1 Mar 2021 15:19:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-05 04:25:18.612680
- Title: Adapting MARBERT for Improved Arabic Dialect Identification: Submission
to the NADI 2021 Shared Task
- Title(参考訳): アラビア方言識別の改善のためのMARBERTの適応:NADI 2021共有タスクへの提出
- Authors: Badr AlKhamissi, Mohamed Gabr, Muhammad ElNokrashy, Khaled Essam
- Abstract要約: 我々は、Nuanced Arabic Dialect Identification (ADIN)共有タスクに取り組む。
タスクは、国と州の両方のレベルで短い方言(DA)と現代標準アラビア語(MSA)の発話の地理的起源を特定することです。
私たちの最終モデルは、MARBERT上に構築されたバリエーションのアンサンブルで、国レベルの開発セットでDAのF1スコア34.03%を達成しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we tackle the Nuanced Arabic Dialect Identification (NADI)
shared task (Abdul-Mageed et al., 2021) and demonstrate state-of-the-art
results on all of its four subtasks. Tasks are to identify the geographic
origin of short Dialectal (DA) and Modern Standard Arabic (MSA) utterances at
the levels of both country and province. Our final model is an ensemble of
variants built on top of MARBERT that achieves an F1-score of 34.03% for DA at
the country-level development set -- an improvement of 7.63% from previous
work.
- Abstract(参考訳): 本稿では,Nuanced Arabic Dialect Identification(NADI)共有タスク(Abdul-Mageed et al.,2021)に取り組み,その4つのサブタスクのすべてに最先端の結果を示す。
タスクは、国と州の両方のレベルで短い方言(DA)と現代標準アラビア語(MSA)の発話の地理的起源を特定することです。
我々の最終モデルは、MARBERT上に構築された変奏曲のアンサンブルであり、国レベルの開発環境でのDAのF1スコア34.03%を達成し、以前の作業から7.63%改善した。
関連論文リスト
- Dynamic-SUPERB Phase-2: A Collaboratively Expanding Benchmark for Measuring the Capabilities of Spoken Language Models with 180 Tasks [112.7791602217381]
命令ベースユニバーサル音声モデルの包括的評価のためのオープンベンチマークであるDynamic-SUPERB Phase-2を提案する。
第1世代をベースとして、この第2バージョンには125の新しいタスクが含まれており、ベンチマークを合計180タスクに拡張している。
評価結果から,どのモデルも良好に動作しなかったことが示唆された。
論文 参考訳(メタデータ) (2024-11-08T06:33:22Z) - NADI 2024: The Fifth Nuanced Arabic Dialect Identification Shared Task [28.40134178913119]
第5回Nuanced Arabic Dialect Identification Shared Task(NADI 2024)の発見について述べる。
NADI 2024は、多ラベル課題としての方言の識別と、アラビア語の方言のレベルを識別することの両方を目標とした。
優勝チームはSubtask1で50.57 Ftextsubscript1、Subtask2で0.1403 RMSE、Subtask3で20.44 BLEUを達成した。
論文 参考訳(メタデータ) (2024-07-06T01:18:58Z) - SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages [64.10040374077994]
SEACrowdは3つのモダリティにまたがる1000近い言語で標準化されたコーパスを統合する共同イニシアチブである。
私たちは、13のタスクにわたる36のネイティブ言語上のAIモデルの品質を評価し、SEAの現在のAI状況に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-06-14T15:23:39Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - LyricSIM: A novel Dataset and Benchmark for Similarity Detection in
Spanish Song LyricS [52.77024349608834]
歌詞中の意味的類似性に合わせた新しいデータセットとベンチマークを提案する。
このデータセットはもともと2775組のスペイン語の歌で構成されており、63のネイティブアノテータによる集合アノテーション実験で注釈付けされました。
論文 参考訳(メタデータ) (2023-06-02T07:48:20Z) - Dialect Identification in Nuanced Arabic Tweets Using Farasa
Segmentation and AraBERT [0.0]
本稿では,EACL WANLP-2021共有タスク1:Nuanced Arabic Dialect Identification (NADI)について述べる。
この課題は、現代の標準アラビア語や方言の形でアラビア語のつぶやきが発せられる場所(国・地域)を識別するシステムを開発することを目的としている。
論文 参考訳(メタデータ) (2021-02-19T05:39:21Z) - Arabic Speech Recognition by End-to-End, Modular Systems and Human [56.96327247226586]
我々は、エンドツーエンド変換器ASR、モジュール型HMM-DNN ASR、および人間の音声認識のための包括的なベンチマークを行う。
ASRでは、エンドツーエンドの作業が12.5%、27.5%、23.8%のWERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスマイルストーンとなった。
以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-01-21T05:55:29Z) - Arabic Dialect Identification Using BERT-Based Domain Adaptation [0.0]
アラビア語は世界で最も重要で成長している言語の一つです
Twitterなどのソーシャルメディアプラットフォームが台頭すると、アラビア語の方言がより使われるようになった。
論文 参考訳(メタデータ) (2020-11-13T15:52:51Z) - Multi-Dialect Arabic BERT for Country-Level Dialect Identification [1.2928709656541642]
提案する実験と、競合するチームであるMawdoo3 AIによって開発されたモデルについて述べる。
方言識別サブタスクは、アラブ21カ国すべてをカバーする21,000の国レベルのラベル付きつぶやきを提供する。
優勝したソリューションの事前学習された言語モデルコンポーネントを、Multi-dialect-Arabic-BERTモデルの名称で公開します。
論文 参考訳(メタデータ) (2020-07-10T21:11:46Z) - Exploration of End-to-End ASR for OpenSTT -- Russian Open Speech-to-Text
Dataset [73.66530509749305]
本稿では,ロシア最大のオープンソース言語データセットであるOpenSTTのエンドツーエンド自動音声認識システム(ASR)について検討する。
CTC/Attention, RNN-Transducer, Transformer など,既存のエンドツーエンドアプローチの評価を行った。
利用可能な3つの検証セット(電話、YouTube、書籍)について、私たちの最高のエンドツーエンドモデルは、それぞれ34.8%、19.1%、および18.1%のワードエラー率(WER)を達成する。
論文 参考訳(メタデータ) (2020-06-15T10:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。