論文の概要: CV-18 NER: Augmented Common Voice for Named Entity Recognition from Arabic Speech
- arxiv url: http://arxiv.org/abs/2604.02209v1
- Date: Thu, 02 Apr 2026 16:02:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.90772
- Title: CV-18 NER: Augmented Common Voice for Named Entity Recognition from Arabic Speech
- Title(参考訳): CV-18 NER:アラビア語音声から名前付きエンティティ認識のための拡張共通音声
- Authors: Youssef Saidi, Haroun Elleuch, Fethi Bougares,
- Abstract要約: アラビア語音声からのNERのための最初の公開データセットであるCV-18 NERを紹介する。
我々はWhisperとAraBEST-RQに基づくパイプラインシステム(ASR + text NER)とE2Eモデルの両方をベンチマークする。
E2Eシステムはテストセット上で最高のパイプライン構成を大幅に上回り、CoER(AraBEST-RQ 300M)が37.0%、CVER(Whisper-medium)が38.0%に達した。
- 参考スコア(独自算出の注目度): 0.6168349254390701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end speech Named Entity Recognition (NER) aims to directly extract entities from speech. Prior work has shown that end-to-end (E2E) approaches can outperform cascaded pipelines for English, French, and Chinese, but Arabic remains under-explored due to its morphological complexity, the absence of short vowels, and limited annotated resources. We introduce CV-18 NER, the first publicly available dataset for NER from Arabic speech, created by augmenting the Arabic Common Voice 18 corpus with manual NER annotations following the fine-grained Wojood schema (21 entity types). We benchmark both pipeline systems (ASR + text NER) and E2E models based on Whisper and AraBEST-RQ. E2E systems substantially outperform the best pipeline configuration on the test set, reaching 37.0% CoER (AraBEST-RQ 300M) and 38.0% CVER (Whisper-medium). Further analysis shows that Arabic-specific self-supervised pretraining yields strong ASR performance, while multilingual weak supervision transfers more effectively to joint speech-to-entity learning, and that larger models may be harder to adapt in this low-resource setting. Our dataset and models are publicly released, providing the first open benchmark for end-to-end named entity recognition from Arabic speech https://huggingface.co/datasets/Elyadata/CV18-NER.
- Abstract(参考訳): エンドツーエンド音声 名前付きエンティティ認識(NER)は、音声から直接エンティティを抽出することを目的としている。
以前の研究で、E2Eアプローチは英語、フランス語、中国語のカスケードパイプラインよりも優れていることが示されているが、アラビア語は、その形態的複雑さ、短い母音の欠如、限られた注釈付き資源のために未発見のままである。
我々は,アラビア音声からNERのための最初の公開データセットであるCV-18 NERを紹介し,Wojoodスキーマ(21のエンティティタイプ)に従って手動のNERアノテーションをアラビア共通音声18コーパスに付加することによって作成した。
我々はWhisperとAraBEST-RQに基づくパイプラインシステム(ASR + text NER)とE2Eモデルの両方をベンチマークする。
E2Eシステムはテストセットにおける最高のパイプライン構成を大幅に上回り、CoER(AraBEST-RQ 300M)37.0%、CVER(Whisper-medium)38.0%に達した。
さらに分析したところ、アラビア固有の自己教師付き事前学習は強いASR性能をもたらす一方、多言語による弱監督は、より効果的に共同発話から遠心学習に移行し、この低リソース環境ではより大きなモデルに適応することが困難であることが示された。
我々のデータセットとモデルは公開されており、アラビア語の https://huggingface.co/datasets/Elyadata/CV18-NER からエンド・ツー・エンドのエンティティ認識のための最初のオープンベンチマークを提供する。
関連論文リスト
- Doing More with Less: Data Augmentation for Sudanese Dialect Automatic Speech Recognition [0.0]
本稿では,OpenAI Whisperモデルを微調整するためのデータ拡張手法について述べる。
スーダン方言の最初のベンチマークを確立している。
論文 参考訳(メタデータ) (2026-01-11T08:28:31Z) - ArFake: A Multi-Dialect Benchmark and Baselines for Arabic Spoof-Speech Detection [2.5962590697722447]
アラビア語スプーフ音声データセットを初めて紹介する。
以上の結果から,FishSpeechはカサブランカコーパスのアラビア語音声クローニングにおいて,他のTSモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-09-26T18:11:20Z) - Munsit at NADI 2025 Shared Task 2: Pushing the Boundaries of Multidialectal Arabic ASR with Weakly Supervised Pretraining and Continual Supervised Fine-tuning [0.0]
本稿では,弱教師付き学習と教師付き微調整を組み合わせたスケーラブルな学習パイプラインを提案する。
提案手法は,多言語アラビア語のASR課題において第1位にランクインし,最先端の成果を達成している。
論文 参考訳(メタデータ) (2025-08-12T13:02:22Z) - IXA/Cogcomp at SemEval-2023 Task 2: Context-enriched Multilingual Named
Entity Recognition using Knowledge Bases [53.054598423181844]
3つのステップからなる新しいNERカスケードアプローチを提案する。
我々は、細粒度および新興物質を正確に分類する上で、外部知識基盤の重要性を実証的に示す。
本システムは,低リソース言語設定においても,マルチコネラ2共有タスクにおいて頑健な性能を示す。
論文 参考訳(メタデータ) (2023-04-20T20:30:34Z) - AISHELL-NER: Named Entity Recognition from Chinese Speech [54.434118596263126]
中国語音声からのNERのための新しいデータセットAISEHLL-NERを提案する。
その結果,ASRと事前学習したNERタグを併用することにより,性能が向上できることが示唆された。
論文 参考訳(メタデータ) (2022-02-17T09:18:48Z) - Arabic Speech Recognition by End-to-End, Modular Systems and Human [56.96327247226586]
我々は、エンドツーエンド変換器ASR、モジュール型HMM-DNN ASR、および人間の音声認識のための包括的なベンチマークを行う。
ASRでは、エンドツーエンドの作業が12.5%、27.5%、23.8%のWERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスマイルストーンとなった。
以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-01-21T05:55:29Z) - End-to-end Named Entity Recognition from English Speech [51.22888702264816]
ASRとNERのタグ付けコンポーネントを協調的に最適化するE2Eアプローチを提案する。
また,音声からのNERを用いて語彙(OOV)をASRシステムで処理する方法についても論じる。
論文 参考訳(メタデータ) (2020-05-22T13:39:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。