Fugu-MT 論文翻訳(概要): Adapting MARBERT for Improved Arabic Dialect Identification: Submission to the NADI 2021 Shared Task

論文の概要: Adapting MARBERT for Improved Arabic Dialect Identification: Submission to the NADI 2021 Shared Task

arxiv url: http://arxiv.org/abs/2103.01065v1
Date: Mon, 1 Mar 2021 15:19:56 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-05 04:25:18.612680
Title: Adapting MARBERT for Improved Arabic Dialect Identification: Submission to the NADI 2021 Shared Task
Title（参考訳）: アラビア方言識別の改善のためのMARBERTの適応:NADI 2021共有タスクへの提出
Authors: Badr AlKhamissi, Mohamed Gabr, Muhammad ElNokrashy, Khaled Essam
Abstract要約: 我々は、Nuanced Arabic Dialect Identification (ADIN)共有タスクに取り組む。タスクは、国と州の両方のレベルで短い方言(DA)と現代標準アラビア語(MSA)の発話の地理的起源を特定することです。私たちの最終モデルは、MARBERT上に構築されたバリエーションのアンサンブルで、国レベルの開発セットでDAのF1スコア34.03%を達成しています。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: In this paper, we tackle the Nuanced Arabic Dialect Identification (NADI) shared task (Abdul-Mageed et al., 2021) and demonstrate state-of-the-art results on all of its four subtasks. Tasks are to identify the geographic origin of short Dialectal (DA) and Modern Standard Arabic (MSA) utterances at the levels of both country and province. Our final model is an ensemble of variants built on top of MARBERT that achieves an F1-score of 34.03% for DA at the country-level development set -- an improvement of 7.63% from previous work.
Abstract（参考訳）: 本稿では,Nuanced Arabic Dialect Identification(NADI)共有タスク(Abdul-Mageed et al.,2021)に取り組み,その4つのサブタスクのすべてに最先端の結果を示す。タスクは、国と州の両方のレベルで短い方言(DA)と現代標準アラビア語(MSA)の発話の地理的起源を特定することです。我々の最終モデルは、MARBERT上に構築された変奏曲のアンサンブルであり、国レベルの開発環境でのDAのF1スコア34.03%を達成し、以前の作業から7.63%改善した。

関連論文リスト

ELYADATA & LIA at NADI 2025: ASR and ADI Subtasks [10.679081563761793]
本稿では,Elyadata & LIAによるNADI多言語アラビア語音声処理2025への共同提出について述べる。 ADIサブタスクでは1位,ASRサブタスクでは2位にランクインした。
論文参考訳（メタデータ） (2025-11-13T08:44:39Z)
DialectalArabicMMLU: Benchmarking Dialectal Capabilities in Arabic and Multilingual Language Models [54.10223256792762]
アラビア方言における大規模言語モデル(LLM)の性能評価のための新しいベンチマークであるDialectalArabicMMLUを提案する。 MMLU-Redux フレームワークを手動で翻訳し、3K 個の質問応答対を5つの主要な方言に適応することで拡張する。
論文参考訳（メタデータ） (2025-10-31T15:17:06Z)
The ML-SUPERB 2.0 Challenge: Towards Inclusive ASR Benchmarking for All Language Varieties [107.57160730151975]
我々は200以上の言語、アクセント、方言のデータからなる新しいテストスイートを構築し、SOTA多言語音声モデルを評価する。その結果, LIDの精度は23%, CERは18%向上した。アクセントと方言のデータでは、最も良い提出は30.2%低いCERと15.7%高いLIDの精度を得た。
論文参考訳（メタデータ） (2025-09-08T18:42:36Z)
LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models [59.0256377330646]
Lensは3.4Kの現代画像と8つのタスクと12の日次シナリオをカバーする60K以上の人間による質問のベンチマークである。このデータセットは本質的に、基本的な知覚から構成的推論に至るまで、画像不変のプロンプトを処理するためのMLLMの評価をサポートする。我々は,Qwen2.5-VL-72B,InternVL3-78B,GPT-4oおよび2つの推論モデルQVQ-72B-previewとKim-VLなどの15以上のフロンティアMLLMを評価する。
論文参考訳（メタデータ） (2025-05-21T15:06:59Z)
Dynamic-SUPERB Phase-2: A Collaboratively Expanding Benchmark for Measuring the Capabilities of Spoken Language Models with 180 Tasks [112.7791602217381]
命令ベースユニバーサル音声モデルの包括的評価のためのオープンベンチマークであるDynamic-SUPERB Phase-2を提案する。第1世代をベースとして、この第2バージョンには125の新しいタスクが含まれており、ベンチマークを合計180タスクに拡張している。評価結果から,どのモデルも良好に動作しなかったことが示唆された。
論文参考訳（メタデータ） (2024-11-08T06:33:22Z)
NADI 2024: The Fifth Nuanced Arabic Dialect Identification Shared Task [28.40134178913119]
第5回Nuanced Arabic Dialect Identification Shared Task(NADI 2024)の発見について述べる。 NADI 2024は、多ラベル課題としての方言の識別と、アラビア語の方言のレベルを識別することの両方を目標とした。優勝チームはSubtask1で50.57 Ftextsubscript1、Subtask2で0.1403 RMSE、Subtask3で20.44 BLEUを達成した。
論文参考訳（メタデータ） (2024-07-06T01:18:58Z)
SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages [64.10040374077994]
SEACrowdは3つのモダリティにまたがる1000近い言語で標準化されたコーパスを統合する共同イニシアチブである。私たちは、13のタスクにわたる36のネイティブ言語上のAIモデルの品質を評価し、SEAの現在のAI状況に関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-06-14T15:23:39Z)
ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。 35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文参考訳（メタデータ） (2024-02-20T09:07:41Z)
LyricSIM: A novel Dataset and Benchmark for Similarity Detection in Spanish Song LyricS [52.77024349608834]
歌詞中の意味的類似性に合わせた新しいデータセットとベンチマークを提案する。このデータセットはもともと2775組のスペイン語の歌で構成されており、63のネイティブアノテータによる集合アノテーション実験で注釈付けされました。
論文参考訳（メタデータ） (2023-06-02T07:48:20Z)
Dialect Identification in Nuanced Arabic Tweets Using Farasa Segmentation and AraBERT [0.0]
本稿では,EACL WANLP-2021共有タスク1:Nuanced Arabic Dialect Identification (NADI)について述べる。この課題は、現代の標準アラビア語や方言の形でアラビア語のつぶやきが発せられる場所(国・地域)を識別するシステムを開発することを目的としている。
論文参考訳（メタデータ） (2021-02-19T05:39:21Z)
Arabic Speech Recognition by End-to-End, Modular Systems and Human [56.96327247226586]
我々は、エンドツーエンド変換器ASR、モジュール型HMM-DNN ASR、および人間の音声認識のための包括的なベンチマークを行う。 ASRでは、エンドツーエンドの作業が12.5%、27.5%、23.8%のWERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスマイルストーンとなった。以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。
論文参考訳（メタデータ） (2021-01-21T05:55:29Z)
Arabic Dialect Identification Using BERT-Based Domain Adaptation [0.0]
アラビア語は世界で最も重要で成長している言語の一つです Twitterなどのソーシャルメディアプラットフォームが台頭すると、アラビア語の方言がより使われるようになった。
論文参考訳（メタデータ） (2020-11-13T15:52:51Z)
Multi-Dialect Arabic BERT for Country-Level Dialect Identification [1.2928709656541642]
提案する実験と、競合するチームであるMawdoo3 AIによって開発されたモデルについて述べる。方言識別サブタスクは、アラブ21カ国すべてをカバーする21,000の国レベルのラベル付きつぶやきを提供する。優勝したソリューションの事前学習された言語モデルコンポーネントを、Multi-dialect-Arabic-BERTモデルの名称で公開します。
論文参考訳（メタデータ） (2020-07-10T21:11:46Z)
Exploration of End-to-End ASR for OpenSTT -- Russian Open Speech-to-Text Dataset [73.66530509749305]
本稿では,ロシア最大のオープンソース言語データセットであるOpenSTTのエンドツーエンド自動音声認識システム(ASR)について検討する。 CTC/Attention, RNN-Transducer, Transformer など,既存のエンドツーエンドアプローチの評価を行った。利用可能な3つの検証セット(電話、YouTube、書籍)について、私たちの最高のエンドツーエンドモデルは、それぞれ34.8%、19.1%、および18.1%のワードエラー率(WER)を達成する。
論文参考訳（メタデータ） (2020-06-15T10:35:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。