論文の概要: FeruzaSpeech: A 60 Hour Uzbek Read Speech Corpus with Punctuation, Casing, and Context
- arxiv url: http://arxiv.org/abs/2410.00035v1
- Date: Mon, 23 Sep 2024 03:07:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 15:29:12.944845
- Title: FeruzaSpeech: A 60 Hour Uzbek Read Speech Corpus with Punctuation, Casing, and Context
- Title(参考訳): FeruzaSpeech:60時間ウズベク語読み上げコーパス
- Authors: Anna Povey, Katherine Povey,
- Abstract要約: 本稿では,ウズベキスタン語の読み上げ音声コーパスであるFeruzaSpeechを紹介する。
FeruzaSpeechはキリル文字とラテン文字の両方で転写されている。
本稿では,FeruzaSpeechの統合によるCommonVoice 16.1のUzbekデータ,Uzbek Speech Corpusデータ,FeruzaSpeechデータに対する単語誤り率(WER)の増大について論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces FeruzaSpeech, a read speech corpus of the Uzbek language, containing transcripts in both Cyrillic and Latin alphabets, freely available for academic research purposes. This corpus includes 60 hours of high-quality recordings from a single native female speaker from Tashkent, Uzbekistan. These recordings consist of short excerpts from a book and BBC News. This paper discusses the enhancement of the Word Error Rates (WERs) on CommonVoice 16.1's Uzbek data, Uzbek Speech Corpus data, and FeruzaSpeech data upon integrating FeruzaSpeech.
- Abstract(参考訳): 本稿では,キリル文字とラテン文字の両方の文字を含むウズベク語の読み上げ音声コーパスであるFeruzaSpeechについて紹介する。
このコーパスには、ウズベキスタンのタシュケント出身の1人の女性スピーカーによる60時間の高品質な録音が含まれている。
これらの録音は、本とBBCニュースからの短い抜粋で構成されている。
本稿では,FeruzaSpeechの統合によるCommonVoice 16.1のUzbekデータ,Uzbek Speech Corpusデータ,FeruzaSpeechデータに対する単語誤り率(WER)の増大について論じる。
関連論文リスト
- FLEURS-R: A Restored Multilingual Speech Corpus for Generation Tasks [27.894172151026044]
FLEURS-Rは、音声コーパスの普遍表現に関するFew-shot Learning Evaluationの音声復元応用版である。
FLEURS-Rの目的は、より多くの言語で音声技術を進歩させ、テキスト音声を含む研究を触媒することである。
論文 参考訳(メタデータ) (2024-08-12T15:28:51Z) - SpokesBiz -- an Open Corpus of Conversational Polish [0.0]
本稿では,CLARIN-BIZプロジェクト内で開発された対話型ポーランド語コーパスであるSpokesBizの初期リリースについて述べる。
本稿では,コーパスの一般的な構造と内容について概説し,言語研究,自動音声認識(ASR)システムの評価と改善における選択された応用を示す。
論文 参考訳(メタデータ) (2023-12-19T17:48:26Z) - MixSpeech: Cross-Modality Self-Learning with Audio-Visual Stream Mixup
for Visual Speech Translation and Recognition [51.412413996510814]
視覚音声の訓練を正規化するために音声音声を利用する多目的自己学習フレームワークであるMixSpeechを提案する。
MixSpeechは雑音の多い環境での音声翻訳を強化し、AVMuST-TED上でのBLEUスコアを+1.4から+4.2に改善した。
論文 参考訳(メタデータ) (2023-03-09T14:58:29Z) - MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition
and Robust Speech-to-Text Translation [44.53711548080296]
我々は,多言語音声視覚コーパスであるMuAViCを紹介した。
完全に書き起こされ、6つの英訳と6つの英訳の方向をカバーしている。
この結果から,MuAViCは音声認識・翻訳モデルの構築に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-03-01T16:31:01Z) - VideoDubber: Machine Translation with Speech-Aware Length Control for
Video Dubbing [73.56970726406274]
ビデオダビングは、映画やテレビ番組のオリジナルスピーチをターゲット言語の音声に変換することを目的としている。
翻訳された音声が対応するビデオと適切に一致するようにするためには、翻訳された音声の長さ/順を元の音声にできるだけ近づけるべきである。
本稿では,ビデオダビング作業に適した機械翻訳システムを提案する。
論文 参考訳(メタデータ) (2022-11-30T12:09:40Z) - SpeechCLIP: Integrating Speech with Pre-Trained Vision and Language
Model [56.49878599920353]
SpeechCLIPは、画像を通して音声とテキストをブリッジし、文字起こしなしに音声モデルを強化する新しいフレームワークである。
我々は、最先端の訓練済みのHuBERTとCLIPを活用し、ペア画像と音声キャプションを最小限の微調整で調整する。
論文 参考訳(メタデータ) (2022-10-03T04:15:36Z) - Huqariq: A Multilingual Speech Corpus of Native Languages of Peru for
Speech Recognition [0.0]
フカーリク語はペルーの4つの母語を含む。
2022年の終わりまでに、ペルーの48の母国語のうち20の母国語に到達できると予想されている。
論文 参考訳(メタデータ) (2022-07-12T12:37:12Z) - LibriS2S: A German-English Speech-to-Speech Translation Corpus [12.376309678270275]
我々はドイツ語と英語による音声合成訓練コーパスを初めて公開する。
これにより、新しい音声合成モデルと音声合成モデルの作成が可能になる。
本稿では,最近提案されたFastSpeech 2モデルの例に基づくテキスト音声合成モデルを提案する。
論文 参考訳(メタデータ) (2022-04-22T09:33:31Z) - GigaSpeech: An Evolving, Multi-domain ASR Corpus with 10,000 Hours of
Transcribed Audio [88.20960848885575]
GigaSpeechは英語の多分野音声認識コーパスで、教師あり訓練に適した高品質なラベル付きオーディオが1万時間ある。
約4万時間の音声が、まずオーディオブック、ポッドキャスト、YouTubeから収集され、読み書きと自発的な話し方の両方をカバーする。
システムトレーニングのために、GigaSpeechは10h, 250h, 1000h, 2500h, 10000hの5つのサブセットを提供する。
論文 参考訳(メタデータ) (2021-06-13T04:09:16Z) - UniSpeech: Unified Speech Representation Learning with Labeled and
Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。
公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文 参考訳(メタデータ) (2021-01-19T12:53:43Z) - A Crowdsourced Open-Source Kazakh Speech Corpus and Initial Speech
Recognition Baseline [4.521450956414864]
カザフ語コーパス(KSC)は、様々な地域や年齢集団の参加者によって話される153,000以上の発声を含む約332時間の音声を含む。
KSCは、様々なカザフ語音声および言語処理アプリケーションを前進させるために開発された、最大の公開データベースである。
論文 参考訳(メタデータ) (2020-09-22T05:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。