論文の概要: QASR: QCRI Aljazeera Speech Resource -- A Large Scale Annotated Arabic
Speech Corpus
- arxiv url: http://arxiv.org/abs/2106.13000v1
- Date: Thu, 24 Jun 2021 13:20:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-25 14:58:38.436754
- Title: QASR: QCRI Aljazeera Speech Resource -- A Large Scale Annotated Arabic
Speech Corpus
- Title(参考訳): QASR: QCRI Aljazeera Speech Resource -- 大規模注釈付きアラビア語音声コーパス
- Authors: Hamdy Mubarak, Amir Hussein, Shammur Absar Chowdhury, Ahmed Ali
- Abstract要約: 本稿では,放送領域から収集したアラビア語音声コーパス,QASRについて紹介する。
この多言語音声データセットは、アルジャジーラのニュースチャンネルからクロールされた16kHzでサンプリングされた2000時間の音声を含む。
- 参考スコア(独自算出の注目度): 11.113497373432411
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce the largest transcribed Arabic speech corpus, QASR, collected
from the broadcast domain. This multi-dialect speech dataset contains 2,000
hours of speech sampled at 16kHz crawled from Aljazeera news channel. The
dataset is released with lightly supervised transcriptions, aligned with the
audio segments. Unlike previous datasets, QASR contains linguistically
motivated segmentation, punctuation, speaker information among others. QASR is
suitable for training and evaluating speech recognition systems, acoustics-
and/or linguistics- based Arabic dialect identification, punctuation
restoration, speaker identification, speaker linking, and potentially other NLP
modules for spoken data. In addition to QASR transcription, we release a
dataset of 130M words to aid in designing and training a better language model.
We show that end-to-end automatic speech recognition trained on QASR reports a
competitive word error rate compared to the previous MGB-2 corpus. We report
baseline results for downstream natural language processing tasks such as named
entity recognition using speech transcript. We also report the first baseline
for Arabic punctuation restoration. We make the corpus available for the
research community.
- Abstract(参考訳): 本稿では,放送領域から収集したアラビア語音声コーパス,QASRを紹介する。
この多言語音声データセットは、アルジャジーラのニュースチャンネルからクロールされた16kHzでサンプリングされた2000時間の音声を含む。
データセットは、オーディオセグメントに合わせて、軽量に教師付き書き起こしでリリースされる。
以前のデータセットとは異なり、QASRは言語的に動機付けられたセグメンテーション、句読点、話者情報などを含む。
QASRは、音声認識システム、音響および/または言語に基づくアラビア方言の識別、句読点復元、話者識別、話者リンク、および音声データのための潜在的NLPモジュールの訓練および評価に適している。
QASRの書き起こしに加えて、より優れた言語モデルの設計と訓練を支援するために、130万ワードのデータセットをリリースする。
qasrで訓練されたエンドツーエンドの自動音声認識は、従来のmgb-2コーパスと比較して競合語誤り率を報告している。
本稿では,音声認識などの下流自然言語処理タスクのベースライン結果について述べる。
また,第1回アラビア語句読点復元基準について報告する。
コーパスを研究コミュニティに提供します。
関連論文リスト
- Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - Towards Zero-Shot Text-To-Speech for Arabic Dialects [16.10882912169842]
ZS-TTS (Zero-shot Multi-Speaker text-to-speech) システムは英語に進歩しているが、リソース不足のためまだ遅れている。
まず、既存のデータセットを音声合成のニーズに合わせて適応させることにより、アラビア語のこのギャップに対処する。
アラビア語の方言識別モデルを用いて、予め定義された方言ラベルが多言語環境でのZS-TTSモデルの改善に与える影響を探索する。
論文 参考訳(メタデータ) (2024-06-24T15:58:15Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Textless Low-Resource Speech-to-Speech Translation With Unit Language
Models [56.1058530241461]
本稿では,テキストレス低音源音声合成システム(S2ST)を学習するための新しいフレームワークを提案する。
我々はS2STを単位から単位へのセク2セク翻訳タスクとして微調整し、大規模単言語音声データに対する事前学習から始める。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - WenetSpeech: A 10000+ Hours Multi-domain Mandarin Corpus for Speech
Recognition [25.31180901037065]
WenetSpeechは、10000時間以上の高品質なラベル付き音声からなる多ドメインマンダリンコーパスである。
YouTubeとPodcastから収集したデータは、さまざまな話し方、シナリオ、ドメイン、トピック、騒々しい条件をカバーしています。
論文 参考訳(メタデータ) (2021-10-07T12:05:29Z) - GigaSpeech: An Evolving, Multi-domain ASR Corpus with 10,000 Hours of
Transcribed Audio [88.20960848885575]
GigaSpeechは英語の多分野音声認識コーパスで、教師あり訓練に適した高品質なラベル付きオーディオが1万時間ある。
約4万時間の音声が、まずオーディオブック、ポッドキャスト、YouTubeから収集され、読み書きと自発的な話し方の両方をカバーする。
システムトレーニングのために、GigaSpeechは10h, 250h, 1000h, 2500h, 10000hの5つのサブセットを提供する。
論文 参考訳(メタデータ) (2021-06-13T04:09:16Z) - Jira: a Kurdish Speech Recognition System Designing and Building Speech
Corpus and Pronunciation Lexicon [4.226093500082746]
中央クルド語のための最初の大規模な語彙音声認識システム(LVSR)、Jiraを紹介します。
クルド語(クルド語)は、複数の国で3000万人以上が話しているインド・ヨーロッパ語である。
音声コーパスについて、我々は、コレクション内のダイフォンの比率が中央クルド語の実際のデータに似ている文集を設計しました。
11の異なる文書トピックを含むテストセットは、2つの対応する音声条件で設計および記録される。
論文 参考訳(メタデータ) (2021-02-15T09:27:54Z) - A Crowdsourced Open-Source Kazakh Speech Corpus and Initial Speech
Recognition Baseline [4.521450956414864]
カザフ語コーパス(KSC)は、様々な地域や年齢集団の参加者によって話される153,000以上の発声を含む約332時間の音声を含む。
KSCは、様々なカザフ語音声および言語処理アプリケーションを前進させるために開発された、最大の公開データベースである。
論文 参考訳(メタデータ) (2020-09-22T05:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。