論文の概要: Sprachsynthese -- State-of-the-Art in englischer und deutscher Sprache
- arxiv url: http://arxiv.org/abs/2106.06230v1
- Date: Fri, 11 Jun 2021 08:25:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 23:54:07.726597
- Title: Sprachsynthese -- State-of-the-Art in englischer und deutscher Sprache
- Title(参考訳): Sprachsynthese--englischer と deutscher Spracheの現況
- Authors: Ren\'e Peinl
- Abstract要約: メル・スペクトログラム生成とボコーダのために、音声合成技術の現状を別々に提示する。
英語からドイツ語への優れた音声合成結果の伝達性について論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reading text aloud is an important feature for modern computer applications.
It not only facilitates access to information for visually impaired people, but
is also a pleasant convenience for non-impaired users. In this article, the
state of the art of speech synthesis is presented separately for
mel-spectrogram generation and vocoders. It concludes with an overview of
available data sets for English and German with a discussion of the
transferability of the good speech synthesis results from English to German
language.
- Abstract(参考訳): テキストの読み上げは、現代のコンピュータアプリケーションにとって重要な機能である。
視覚障がい者の情報へのアクセスが容易になるだけでなく、障害のないユーザーにとっても快適な利便性となる。
本稿では,メル・スペクトログラム生成とボコーダのために,音声合成技術の現状を別々に提示する。
英語からドイツ語への優れた音声合成結果の伝達性について論じ、英語とドイツ語で利用可能なデータセットの概要で締めくくっている。
関連論文リスト
- EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - Improving End-to-end Speech Translation by Leveraging Auxiliary Speech
and Text Data [38.816953592085156]
本稿では,事前学習したエンドツーエンド音声翻訳システムにテキストエンコーダを導入する方法を提案する。
これは、あるモダリティ(すなわち、ソース言語音声)を他の(すなわち、ソース言語テキスト)に適応する能力を高める。
論文 参考訳(メタデータ) (2022-12-04T09:27:56Z) - Accented Text-to-Speech Synthesis with a Conditional Variational
Autoencoder [12.341796318082555]
本稿では,条件付き変分オートエンコーダに基づくアクセント付きテキスト音声合成(TTS)のための新しいフレームワークを提案する。
選択された話者の音声を任意のターゲットアクセントに変換することができる。
論文 参考訳(メタデータ) (2022-11-07T05:36:30Z) - Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文 参考訳(メタデータ) (2022-07-01T23:28:16Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Review of end-to-end speech synthesis technology based on deep learning [10.748200013505882]
研究の焦点はディープラーニングに基づくエンドツーエンド音声合成技術である。
主にテキストフロントエンド、音響モデル、ボコーダの3つのモジュールで構成されている。
本稿では、音声合成タスクに使用できる英語、中国語、その他の言語のオープンソース音声コーパスを要約する。
論文 参考訳(メタデータ) (2021-04-20T14:24:05Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Self-Supervised Representations Improve End-to-End Speech Translation [57.641761472372814]
自己教師付き事前学習機能により,翻訳性能が一貫的に向上することを示す。
言語間の変換は、チューニングの必要なく、あるいはほとんどチューニングすることなく、さまざまな言語に拡張することができる。
論文 参考訳(メタデータ) (2020-06-22T10:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。