論文の概要: BASPRO: a balanced script producer for speech corpus collection based on
the genetic algorithm
- arxiv url: http://arxiv.org/abs/2301.04120v1
- Date: Sun, 11 Dec 2022 02:05:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-15 23:24:39.362004
- Title: BASPRO: a balanced script producer for speech corpus collection based on
the genetic algorithm
- Title(参考訳): BASPRO:遺伝的アルゴリズムに基づく音声コーパス収集のためのバランスの取れたスクリプトプロデューサ
- Authors: Yu-Wen Chen, Hsin-Min Wang, Yu Tsao
- Abstract要約: 音声処理モデルの性能は、訓練と評価に使用される音声コーパスの影響を強く受けている。
本研究では,中国語文の音素バランスとリッチなセットを自動的に構築できるBAlanced Script Producer (BASPRO)システムを提案する。
- 参考スコア(独自算出の注目度): 29.701197643765674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of speech-processing models is heavily influenced by the
speech corpus that is used for training and evaluation. In this study, we
propose BAlanced Script PROducer (BASPRO) system, which can automatically
construct a phonetically balanced and rich set of Chinese sentences for
collecting Mandarin Chinese speech data. First, we used pretrained natural
language processing systems to extract ten-character candidate sentences from a
large corpus of Chinese news texts. Then, we applied a genetic algorithm-based
method to select 20 phonetically balanced sentence sets, each containing 20
sentences, from the candidate sentences. Using BASPRO, we obtained a recording
script called TMNews, which contains 400 ten-character sentences. TMNews covers
84% of the syllables used in the real world. Moreover, the syllable
distribution has 0.96 cosine similarity to the real-world syllable
distribution. We converted the script into a speech corpus using two
text-to-speech systems. Using the designed speech corpus, we tested the
performances of speech enhancement (SE) and automatic speech recognition (ASR),
which are one of the most important regression- and classification-based speech
processing tasks, respectively. The experimental results show that the SE and
ASR models trained on the designed speech corpus outperform their counterparts
trained on a randomly composed speech corpus.
- Abstract(参考訳): 音声処理モデルの性能は、訓練と評価に使用される音声コーパスの影響を強く受けている。
本研究では,中国語の音声データを収集するために,音素バランスとリッチな中国語文群を自動構築するBAlanced Script Producer(BASPRO)システムを提案する。
まず,事前学習された自然言語処理システムを用いて,中国語ニューステキストのコーパスから10文字の候補文を抽出する。
次に, 候補文から20文を含む20個の音韻バランス文集合を, 遺伝的アルゴリズムベースで選択する手法を適用した。
BASPROを用いて,400のテン文字文を含むTMNewsというレコードスクリプトを得た。
TMNewsは現実世界で使われている音節の84%をカバーしている。
さらに、音節分布は現実世界の音節分布と0.96コサイン類似性を有する。
2つの音声合成システムを用いて,スクリプトを音声コーパスに変換する。
設計した音声コーパスを用いて,最も重要な回帰処理課題である音声強調処理(se)と自動音声認識(asr)の性能を検証した。
実験の結果,SEモデルとASRモデルは,ランダムに構成された音声コーパスで訓練された音声コーパスよりも優れていた。
関連論文リスト
- AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - ClArTTS: An Open-Source Classical Arabic Text-to-Speech Corpus [3.1925030748447747]
本稿では,古典アラビア語テキスト・トゥ・スペーチ(ClArTTS)のための音声コーパスについて述べる。
音声は、LibriVoxオーディオブックから抽出され、処理され、セグメンテーションされ、手動で書き起こされ、注釈付けされる。
最後のClArTTSコーパスは、40100kHzでサンプリングされた1人の男性スピーカーから約12時間の音声を含む。
論文 参考訳(メタデータ) (2023-02-28T20:18:59Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - TALCS: An Open-Source Mandarin-English Code-Switching Corpus and a
Speech Recognition Baseline [0.0]
本稿では,mandarin- English code-switching speech recognition--TALCS corpus の新たなコーパスを提案する。
TALCSコーパス(TALCS corpus)は、TAL教育グループにおけるオンラインの1対1の英語教育シーンに由来する。
私たちの知る限りでは、TALCS corpusは、マンダリン英語のコードスイッチングオープンソース自動音声認識データセットとして世界最大である。
論文 参考訳(メタデータ) (2022-06-27T09:30:25Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - Construction of a Large-scale Japanese ASR Corpus on TV Recordings [2.28438857884398]
本稿では,音声認識システム(ASR)を学習するための大規模日本語コーパスを提案する。
このコーパスには2000時間以上のスピーチと、日本のテレビの録音とその字幕に書かれた書き起こしが含まれている。
論文 参考訳(メタデータ) (2021-03-26T21:14:12Z) - Jira: a Kurdish Speech Recognition System Designing and Building Speech
Corpus and Pronunciation Lexicon [4.226093500082746]
中央クルド語のための最初の大規模な語彙音声認識システム(LVSR)、Jiraを紹介します。
クルド語(クルド語)は、複数の国で3000万人以上が話しているインド・ヨーロッパ語である。
音声コーパスについて、我々は、コレクション内のダイフォンの比率が中央クルド語の実際のデータに似ている文集を設計しました。
11の異なる文書トピックを含むテストセットは、2つの対応する音声条件で設計および記録される。
論文 参考訳(メタデータ) (2021-02-15T09:27:54Z) - FT Speech: Danish Parliament Speech Corpus [21.190182627955817]
本稿では,デンマーク議会の会議記録から作成した音声コーパスであるFT Speechを紹介する。
コーパスには、合計434人の話者による1,800時間以上の音声の書き起こしが含まれている。
これは、デンマークの既存の公用語コーパスよりも、持続時間、語彙、自然発話の量において著しく大きい。
論文 参考訳(メタデータ) (2020-05-25T19:51:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。