Fugu-MT 論文翻訳(概要): Emilia: An Extensive, Multilingual, and Diverse Speech Dataset for Large-Scale Speech Generation

論文の概要: Emilia: An Extensive, Multilingual, and Diverse Speech Dataset for Large-Scale Speech Generation

arxiv url: http://arxiv.org/abs/2407.05361v2
Date: Sat, 13 Jul 2024 02:50:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 21:47:52.836354
Title: Emilia: An Extensive, Multilingual, and Diverse Speech Dataset for Large-Scale Speech Generation
Title（参考訳）: Emilia:大規模音声生成のための多言語・多言語・多言語音声データセット
Authors: Haorui He, Zengqiang Shang, Chaoren Wang, Xuyuan Li, Yicheng Gu, Hua Hua, Liwei Liu, Chen Yang, Jiaqi Li, Peiyang Shi, Yuancheng Wang, Kai Chen, Pengyuan Zhang, Zhizheng Wu,
Abstract要約: そこで本論文では,第1回多言語音声生成データセットであるEmiliaについて述べる。 Emilia-Pipeは、Wildの音声データを高品質なトレーニングデータに変換するために設計された、最初のオープンソースの前処理パイプラインである。 Emiliaのスケールアップを容易にするため、オープンソースのパイプラインであるEmilia-Pipeは、数分間のモデルトレーニングに備えた1時間の生音声データを処理できる。
参考スコア（独自算出の注目度）: 26.569097905515033
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, speech generation models have made significant progress by using large-scale training data. However, the research community struggle to produce highly spontaneous and human-like speech due to the lack of large-scale, diverse, and spontaneous speech data. This paper present Emilia, the first multilingual speech generation dataset from in-the-wild speech data, and Emilia-Pipe, the first open-source preprocessing pipeline designed to transform in-the-wild speech data into high-quality training data with annotations for speech generation. Emilia starts with over 101k hours of speech in six languages and features diverse speech with varied speaking styles. To facilitate the scale-up of Emilia, the open-source pipeline Emilia-Pipe can process one hour of raw speech data ready for model training in a few mins, which enables the research community to collaborate on large-scale speech generation research. Experimental results validate the effectiveness of Emilia. Demos are available at: https://emilia-dataset.github.io/Emilia-Demo-Page/.
Abstract（参考訳）: 近年,大規模学習データを用いて音声生成モデルに大きな進歩を遂げている。しかし、研究コミュニティは、大規模で多様な、そして自発的な音声データが不足しているため、非常に自然で人間らしい音声を作り出すのに苦労している。そこで本論文では,第1回多言語音声生成データセットであるEmiliaと,第1回オープンソース前処理パイプラインであるEmilia-Pipeについて述べる。 Emiliaは、6つの言語で101k時間以上のスピーチから始まり、様々な話し方で多様なスピーチを特徴としている。 Emiliaのスケールアップを容易にするために、オープンソースのパイプラインであるEmilia-Pipeは、数分間でモデルのトレーニングに備えた生の音声データを1時間処理することができる。エミリアの有効性を実験的に検証した。デモは、https://emilia-dataset.github.io/Emilia-Demo-Page/.comで公開されている。

関連論文リスト

CASPER: A Large Scale Spontaneous Speech Dataset [25.446606381490025]
本稿では,自発音声データの不足に対処するための基礎研究として,我々のデータセットと方法論を紹介する。今後このデータセットを拡大し、研究コミュニティのためのリソースを拡大する予定です。
論文参考訳（メタデータ） (2025-05-30T22:03:59Z)
CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training [70.31925012315064]
野生におけるゼロショット多言語音声合成のための改良モデルであるCosyVoice 3を提案する。 CosyVoice 3の主な特徴は、韻律自然性を改善する新しい音声トークンである。データは1万時間から100万時間に拡張され、9つの言語と18の中国語方言を含んでいる。
論文参考訳（メタデータ） (2025-05-23T07:55:21Z)
Emilia: A Large-Scale, Extensive, Multilingual, and Diverse Dataset for Speech Generation [26.569097905515033]
エミリア (Emilia) は、第1の多言語音声生成データセットである。 Emiliaを216k時間を超えるデータセットであるEmilia-Largeに拡張することで、オープンソースの音声生成データセットとしては最大です。
論文参考訳（メタデータ） (2025-01-27T09:59:20Z)
Scaling Speech-Text Pre-training with Synthetic Interleaved Data [31.77653849518526]
音声言語モデル(SpeechLM)は音声入力を受け入れ、音声出力を生成し、より自然な人間とコンピュータの相互作用を可能にする。従来のSpeechLMの開発手法は、教師なし音声データとパラレル音声テキストデータの可用性の制限によって制約されている。本稿では,テキストコーパスから得られた大規模合成インターリーブデータを活用することによって,音声テキスト事前学習のスケールアップを行う手法を提案する。
論文参考訳（メタデータ） (2024-11-26T17:19:09Z)
Investigating the Effects of Large-Scale Pseudo-Stereo Data and Different Speech Foundation Model on Dialogue Generative Spoken Language Model [47.67067056593085]
単一チャネルの対話データを擬似ステレオデータに変換するパイプラインを開発する。これにより、トレーニングデータセットを2,000時間から17,600時間に拡大しました。この擬似ステレオデータの導入は、音声対話言語モデルの性能向上に有効であることが証明されている。
論文参考訳（メタデータ） (2024-07-02T03:22:41Z)
GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement [36.29371629234269]
GigaSpeech 2は大規模多言語音声認識コーパスである。タイ語、インドネシア語、ベトナム語を含む約3万時間の音声が自動で書き起こされる。
論文参考訳（メタデータ） (2024-06-17T13:44:20Z)
TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文参考訳（メタデータ） (2024-05-28T04:11:37Z)
Toward Joint Language Modeling for Speech Units and Text [89.32163954508489]
音声単位とテキストの共用言語モデリングについて検討する。音声とテキストの混在度を評価するための自動計測手法を提案する。提案手法を用いて音声単位とテキストを混合することにより,SLUタスクにおける音声のみのベースラインを改良することを示す。
論文参考訳（メタデータ） (2023-10-12T20:53:39Z)
AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。 AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文参考訳（メタデータ） (2023-06-22T14:37:54Z)
Textually Pretrained Speech Language Models [107.10344535390956]
本稿では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。
論文参考訳（メタデータ） (2023-05-22T13:12:16Z)
Joint Pre-Training with Speech and Bilingual Text for Direct Speech to Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文参考訳（メタデータ） (2022-10-31T02:55:51Z)
Distilling a Pretrained Language Model to a Multilingual ASR Model [3.4012007729454816]
教師のテキストモデルに埋め込まれた豊富な知識を学生の音声モデルに蒸留する。我々は,100時間未満の音声データを持つCommonVoiceデータセットの低リソース言語20言語に対して,本手法の優位性を示す。
論文参考訳（メタデータ） (2022-06-25T12:36:11Z)
Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文参考訳（メタデータ） (2021-12-15T18:56:35Z)
SpeechStew: Simply Mix All Available Speech Recognition Data to Train One Large Neural Network [45.59907668722702]
本研究では,公開音声認識データセットの組み合わせで学習した音声認識モデルである speechstew を提案する。結果はAMI-IHMの9.0% WER、Switchboardの4.7% WER、CallHomeの8.3% WER、WSJの1.3%である。また, speechstew が強力な転送学習表現を学習することを示す。
論文参考訳（メタデータ） (2021-04-05T20:13:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。