論文の概要: ADI-20: Arabic Dialect Identification dataset and models
- arxiv url: http://arxiv.org/abs/2511.10070v1
- Date: Fri, 14 Nov 2025 01:30:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.679281
- Title: ADI-20: Arabic Dialect Identification dataset and models
- Title(参考訳): ADI-20:アラビア方言識別データセットとモデル
- Authors: Haroun Elleuch, Salima Mdhaffar, Yannick Estève, Fethi Bougares,
- Abstract要約: ADI-20は、以前発表されたADI-17アラビア方言識別(ADI)データセットの拡張である。
ADI-20はアラビア語圏のすべての方言をカバーしている。
このデータセットを用いて、さまざまな最先端ADIシステムのトレーニングと評価を行った。
- 参考スコア(独自算出の注目度): 11.457009449330068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present ADI-20, an extension of the previously published ADI-17 Arabic Dialect Identification (ADI) dataset. ADI-20 covers all Arabic-speaking countries' dialects. It comprises 3,556 hours from 19 Arabic dialects in addition to Modern Standard Arabic (MSA). We used this dataset to train and evaluate various state-of-the-art ADI systems. We explored fine-tuning pre-trained ECAPA-TDNN-based models, as well as Whisper encoder blocks coupled with an attention pooling layer and a classification dense layer. We investigated the effect of (i) training data size and (ii) the model's number of parameters on identification performance. Our results show a small decrease in F1 score while using only 30% of the original training data. We open-source our collected data and trained models to enable the reproduction of our work, as well as support further research in ADI.
- Abstract(参考訳): ADI-20は、以前発表されたADI-17アラビア方言識別(ADI)データセットの拡張である。
ADI-20はアラビア語圏のすべての方言をカバーしている。
現代標準アラビア語(MSA)に加えて、19のアラビア語方言から3,556時間経過している。
このデータセットを用いて、さまざまな最先端ADIシステムのトレーニングと評価を行った。
我々は,注意プーリング層と分類密度層を結合したWhisperエンコーダブロックとともに,訓練済みのEPPA-TDNNベースモデルについて検討した。
私たちはその効果を調査した
(i)データサイズとトレーニング
(2)識別性能に関するモデルのパラメータ数。
トレーニングデータの30%しか使用せず,F1スコアの低下がみられた。
収集したデータとトレーニングされたモデルをオープンソースとして公開し、作業の再現を可能にするとともに、ADIにおけるさらなる研究を支援します。
関連論文リスト
- ELYADATA & LIA at NADI 2025: ASR and ADI Subtasks [10.679081563761793]
本稿では,Elyadata & LIAによるNADI多言語アラビア語音声処理2025への共同提出について述べる。
ADIサブタスクでは1位,ASRサブタスクでは2位にランクインした。
論文 参考訳(メタデータ) (2025-11-13T08:44:39Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - Mavericks at NADI 2023 Shared Task: Unravelling Regional Nuances through
Dialect Identification using Transformer-based Approach [0.0]
我々は,国レベルの方言識別を扱うサブタスク1の方法論を強調した。
このタスクは、マルチクラス分類問題に対する18の方言を含むTwitterデータセット(TWT-2023)を使用する。
テストデータセットでF1スコア76.65 (11位)を達成した。
論文 参考訳(メタデータ) (2023-11-30T17:37:56Z) - Arabic Dialect Identification under Scrutiny: Limitations of
Single-label Classification [12.201535821920624]
単一ラベル分類問題として現在採用されているADIタスクのフレーミングは,その主な原因の一つであると論じる。
アラビア方言の7人の母語話者によって行われたADIの予測のための手動エラー解析により、検証済みエラーの66%が真の誤りではないことが明らかになった。
我々は,多ラベル分類タスクとしてのADIのフレーミングを提案し,新しいADIデータセットの設計を推奨する。
論文 参考訳(メタデータ) (2023-10-20T17:04:22Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - A Parameter-Efficient Learning Approach to Arabic Dialect Identification
with Pre-Trained General-Purpose Speech Model [9.999900422312098]
我々は、アラビア方言識別(ADI)のためのGSMを条件にトークンレベルのラベルマッピングを開発する。
我々は,バニラ微調整により,ADI-17データセット上で最先端の精度を実現する。
本研究は、小さなデータセットを用いてアラビア方言を識別する方法を示し、オープンソースコードと事前訓練されたモデルで制限する。
論文 参考訳(メタデータ) (2023-05-18T18:15:53Z) - Navya3DSeg -- Navya 3D Semantic Segmentation Dataset & split generation
for autonomous vehicles [63.20765930558542]
3Dセマンティックデータは、障害物検出やエゴ-車両の局所化といった中核的な認識タスクに有用である。
そこで我々は,大規模生産段階の運用領域に対応する多様なラベル空間を持つ新しいデータセットであるNavala 3D(Navya3DSeg)を提案する。
ラベルのない23のラベル付きシーケンスと25の補足シーケンスが含まれており、ポイントクラウド上の自己教師付きおよび半教師付きセマンティックセマンティックセグメンテーションベンチマークを探索するために設計された。
論文 参考訳(メタデータ) (2023-02-16T13:41:19Z) - Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文 参考訳(メタデータ) (2022-03-23T03:19:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。