論文の概要: Digital Einstein Experience: Fast Text-to-Speech for Conversational AI
- arxiv url: http://arxiv.org/abs/2107.10658v1
- Date: Wed, 21 Jul 2021 12:03:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-23 13:01:33.381321
- Title: Digital Einstein Experience: Fast Text-to-Speech for Conversational AI
- Title(参考訳): digital einstein experience: 会話型aiのための高速テキスト合成
- Authors: Joanna Rownicka, Kilian Sprenkamp, Antonio Tripiana, Volodymyr
Gromoglasov, Timo P Kunz
- Abstract要約: 我々は、デジタル会話体験の中で人間とコンピュータのインタラクションを可能にするために、Digital Einsteinキャラクタのための音声を提供する。
本稿では,Fastspeech 2を用いて音素とパラレルウェーブGANの対数スケールのメル-スペクトログラム予測を行い,波形を生成する。
提案したクラウドアーキテクチャは,高速な音声配信を可能にするため,Albert Einsteinのディジタルバージョンとリアルタイムに通信することができる。
- 参考スコア(独自算出の注目度): 3.7886097009023376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe our approach to create and deliver a custom voice for a
conversational AI use-case. More specifically, we provide a voice for a Digital
Einstein character, to enable human-computer interaction within the digital
conversation experience. To create the voice which fits the context well, we
first design a voice character and we produce the recordings which correspond
to the desired speech attributes. We then model the voice. Our solution
utilizes Fastspeech 2 for log-scaled mel-spectrogram prediction from phonemes
and Parallel WaveGAN to generate the waveforms. The system supports a character
input and gives a speech waveform at the output. We use a custom dictionary for
selected words to ensure their proper pronunciation. Our proposed cloud
architecture enables for fast voice delivery, making it possible to talk to the
digital version of Albert Einstein in real-time.
- Abstract(参考訳): 会話型aiユースケースのためのカスタム音声の作成と提供のアプローチについて説明する。
より具体的には、デジタル会話体験の中で人間とコンピュータのインタラクションを可能にするデジタルアインシュタインキャラクタの音声を提供する。
文脈によく適合する音声を作成するために,まず音声キャラクタをデザインし,所望の音声属性に対応する録音を生成する。
声をモデル化します
本稿では,Fastspeech 2を用いて音素とパラレルウェーブGANからのメログラムのログスケール予測を行い,波形を生成する。
このシステムは、文字入力をサポートし、出力に音声波形を与える。
適切な発音を保証するために、選択した単語のカスタム辞書を使用します。
提案したクラウドアーキテクチャは,高速な音声配信を可能にするため,Albert Einsteinのディジタルバージョンとリアルタイムに通信することができる。
関連論文リスト
- FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs [63.8261207950923]
FunAudioLLMは、人間と大規模言語モデル(LLM)の間の自然な音声相互作用を強化するために設計されたモデルファミリーである
中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。
SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。
論文 参考訳(メタデータ) (2024-07-04T16:49:02Z) - VoiceCraft: Zero-Shot Speech Editing and Text-to-Speech in the Wild [42.788845796159045]
本稿では,音声編集とゼロショット音声タスクの両方で最先端のパフォーマンスを実現する,トークンを埋め込んだニューラルネットワークモデルであるVoiceCraftを紹介する。
音声編集タスクでは、ボイスクラフトは自然性の観点から未編集の録音とほとんど区別できない編集された音声を生成する。
ゼロショットTSでは、VALLEや一般的な商用モデルであるXTTS-v2など、従来のSotAモデルよりも優れています。
論文 参考訳(メタデータ) (2024-03-25T17:38:32Z) - StreamVC: Real-Time Low-Latency Voice Conversion [20.164321451712564]
StreamVCはストリーミング音声変換ソリューションで、任意のソース音声の内容と韻律を保存し、任意のターゲット音声から音声の音色をマッチングする。
StreamVCは、モバイルプラットフォーム上でも入力信号から低レイテンシで結果の波形を生成する。
論文 参考訳(メタデータ) (2024-01-05T22:37:26Z) - Towards General-Purpose Text-Instruction-Guided Voice Conversion [84.78206348045428]
本稿では,「深い声調でゆっくり発声する」や「陽気な少年声で話す」といったテキスト指示によって導かれる,新しい音声変換モデルを提案する。
提案したVCモデルは、離散コード列を処理するニューラルネットワークモデルであり、変換された音声のコード列を生成する。
論文 参考訳(メタデータ) (2023-09-25T17:52:09Z) - Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis [66.43223397997559]
入力テキストに対応する高品質な音声ポートレート映像を合成することを目的としている。
この課題は、デジタルヒューマン産業における幅広い応用の見通しを持っているが、まだ技術的には達成されていない。
本稿では,Ada-TTA(Adaptive Text-to-Talking Avatar)を提案する。
論文 参考訳(メタデータ) (2023-06-06T08:50:13Z) - PolyVoice: Language Models for Speech to Speech Translation [50.31000706309143]
PolyVoiceは音声音声翻訳のための言語モデルに基づくフレームワーク
我々は、完全に教師なしの方法で生成される離散化音声単位を使用する。
音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
論文 参考訳(メタデータ) (2023-06-05T15:53:15Z) - Affective social anthropomorphic intelligent system [1.7849339006560665]
本研究は、感情や性格と人間のような適切な会話をすることができる人間型知的システムを提案する。
特定の感情の属性をマッピングするために,音声スタイルの伝達法も提案されている。
論文 参考訳(メタデータ) (2023-04-19T18:24:57Z) - Learning to Dub Movies via Hierarchical Prosody Models [167.6465354313349]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。
本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-08T03:29:04Z) - NatiQ: An End-to-end Text-to-Speech System for Arabic [18.24401058956243]
NatiQはアラビア語のエンドツーエンドのテキスト音声システムである。
音声シンセサイザーは、注意を払ってエンコーダ・デコーダアーキテクチャを使用する。
論文 参考訳(メタデータ) (2022-06-15T08:28:08Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。