Fugu-MT 論文翻訳(概要): Review of end-to-end speech synthesis technology based on deep learning

論文の概要: Review of end-to-end speech synthesis technology based on deep learning

arxiv url: http://arxiv.org/abs/2104.09995v1
Date: Tue, 20 Apr 2021 14:24:05 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-21 17:53:12.116223
Title: Review of end-to-end speech synthesis technology based on deep learning
Title（参考訳）: ディープラーニングに基づくエンドツーエンド音声合成技術の検討
Authors: Zhaoxi Mu, Xinyu Yang, Yizhuo Dong
Abstract要約: 研究の焦点はディープラーニングに基づくエンドツーエンド音声合成技術である。主にテキストフロントエンド、音響モデル、ボコーダの3つのモジュールで構成されている。本稿では、音声合成タスクに使用できる英語、中国語、その他の言語のオープンソース音声コーパスを要約する。
参考スコア（独自算出の注目度）: 10.748200013505882
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As an indispensable part of modern human-computer interaction system, speech synthesis technology helps users get the output of intelligent machine more easily and intuitively, thus has attracted more and more attention. Due to the limitations of high complexity and low efficiency of traditional speech synthesis technology, the current research focus is the deep learning-based end-to-end speech synthesis technology, which has more powerful modeling ability and a simpler pipeline. It mainly consists of three modules: text front-end, acoustic model, and vocoder. This paper reviews the research status of these three parts, and classifies and compares various methods according to their emphasis. Moreover, this paper also summarizes the open-source speech corpus of English, Chinese and other languages that can be used for speech synthesis tasks, and introduces some commonly used subjective and objective speech quality evaluation method. Finally, some attractive future research directions are pointed out.
Abstract（参考訳）: 現代人とコンピュータのインタラクションシステムにとって欠かせない部分として、音声合成技術は知能マシンの出力をより簡単かつ直感的に得るのに役立つため、ますます注目を集めている。従来の音声合成技術の複雑さと低効率の限界のため、現在の研究対象はディープラーニングに基づくエンドツーエンド音声合成技術であり、より強力なモデリング能力とより単純なパイプラインを備えている。主にテキストフロントエンド、音響モデル、ボコーダの3つのモジュールで構成されている。本稿では,これら3部の研究状況を概観し,その重要度に応じて各種手法を分類・比較する。さらに,音声合成タスクに使用できる英語,中国語,その他の言語のオープンソースの音声コーパスを要約し,主観的,客観的な音声品質評価方法について紹介する。最後に、将来的な研究の方向性が指摘されている。

関連論文リスト

Nexus-O: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [50.23246260804145]
業界レベルのtextbfomni-perceptive および-interactive モデルである textbfNexus-O を導入し,音声,画像,ビデオ,テキストデータを効率的に処理する。まず、モデルを効率的に設計し、トレーニングして、複数のモダリティにわたるトリモーダルアライメント、理解、推論機能を実現するにはどうすればよいか? 第二に、現実のシナリオにおける信頼性の高いパフォーマンスと適用性を保証するために、トリモーダルモデルの堅牢性を評価するために、どのようなアプローチが実装できるのか? 第3に,高品質で現実的なシナリオをキュレートし,得るための戦略
論文参考訳（メタデータ） (2025-02-26T17:26:36Z)
CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文参考訳（メタデータ） (2024-12-13T12:59:39Z)
WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文参考訳（メタデータ） (2024-11-15T04:16:45Z)
Making Social Platforms Accessible: Emotion-Aware Speech Generation with Integrated Text Analysis [3.8251125989631674]
本稿では,エンドツーエンドの文脈認識型テキスト音声合成システムを提案する。テキスト入力から伝達された感情を導き出し、自然な、表現力のある音声に対する感情と話者の特徴に焦点を当てた音声を合成する。本システムでは,最先端のTSモデルと比較した場合の競合予測時間性能を示す。
論文参考訳（メタデータ） (2024-10-24T23:18:02Z)
Text to speech synthesis [0.27195102129095]
テキスト音声合成(TTS)は、テキストを音声に変換する技術である。この抽象概念は、TS合成の重要な側面を探求し、その基礎技術、応用、および様々な分野における意味を包含する。
論文参考訳（メタデータ） (2024-01-25T02:13:45Z)
All-for-One and One-For-All: Deep learning-based feature fusion for Synthetic Speech Detection [18.429817510387473]
近年のディープラーニングとコンピュータビジョンの進歩により、マルチメディアコンテンツの合成と偽造がこれまで以上に容易にできるようになった。本稿では,合成音声検出タスクについて文献で提案する3つの特徴セットについて考察し,それらと融合するモデルを提案する。このシステムは異なるシナリオとデータセットでテストされ、反法医学的攻撃に対する堅牢性とその一般化能力を証明する。
論文参考訳（メタデータ） (2023-07-28T13:50:25Z)
On decoder-only architecture for speech-to-text and large language model integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文参考訳（メタデータ） (2023-07-08T06:47:58Z)
A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文参考訳（メタデータ） (2023-02-08T17:34:32Z)
An Overview of Affective Speech Synthesis and Conversion in the Deep Learning Era [39.91844543424965]
表現力(Affect)は、親密な思考、感情、感情を伝達できる媒体に音声を変換する能力を持つ。近年のテキスト音声合成の進歩に続き、感情音声合成と変換の分野でパラダイムシフトが進行中である。ディープラーニング(Deep Learning)は、人工知能の最近の進歩の根底にある技術で、これらの取り組みを先導している。
論文参考訳（メタデータ） (2022-10-06T13:55:59Z)
Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文参考訳（メタデータ） (2022-07-01T23:28:16Z)
Spoken Style Learning with Multi-modal Hierarchical Context Encoding for Conversational Text-to-Speech Synthesis [59.27994987902646]
歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。歴史的会話の書き起こしのみが考慮され、歴史的スピーチの話し方を無視している。マルチモーダル階層型コンテキスト符号化を用いた音声スタイル学習手法を提案する。
論文参考訳（メタデータ） (2021-06-11T08:33:52Z)
SpeechBrain: A General-Purpose Speech Toolkit [73.0404642815335]
SpeechBrainはオープンソースでオールインワンの音声ツールキットである。ニューラル音声処理技術の研究開発を促進するために設計された。幅広い音声ベンチマークにおいて、競争力や最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2021-06-08T18:22:56Z)
Speech Synthesis as Augmentation for Low-Resource ASR [7.2244067948447075]
音声合成は低リソース音声認識の鍵となるかもしれない。データ拡張技術は、現代の音声認識トレーニングの重要な部分となっている。音声合成技術は、人間のような音声を達成するという目標に急速に近づきつつある。
論文参考訳（メタデータ） (2020-12-23T22:19:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。