論文の概要: Integrated Speech and Gesture Synthesis
- arxiv url: http://arxiv.org/abs/2108.11436v1
- Date: Wed, 25 Aug 2021 19:04:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-27 13:47:40.849229
- Title: Integrated Speech and Gesture Synthesis
- Title(参考訳): 音声とジェスチャーの統合合成
- Authors: Siyang Wang, Simon Alexanderson, Joakim Gustafson, Jonas Beskow,
Gustav Eje Henter, \'Eva Sz\'ekely
- Abstract要約: テキスト音声合成と共同音声合成は、これまで2つの異なる研究コミュニティによって別々の領域として扱われてきた。
統合音声・ジェスチャー合成(ISG)と呼ばれる新しい問題である,2つのモーダルを1つのモデルで合成することを提案する。
モデルは、パイプラインシステムと比較して、より高速な合成時間とパラメータ数でこれを実現することができる。
- 参考スコア(独自算出の注目度): 26.267738299876314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-speech and co-speech gesture synthesis have until now been treated as
separate areas by two different research communities, and applications merely
stack the two technologies using a simple system-level pipeline. This can lead
to modeling inefficiencies and may introduce inconsistencies that limit the
achievable naturalness. We propose to instead synthesize the two modalities in
a single model, a new problem we call integrated speech and gesture synthesis
(ISG). We also propose a set of models modified from state-of-the-art neural
speech-synthesis engines to achieve this goal. We evaluate the models in three
carefully-designed user studies, two of which evaluate the synthesized speech
and gesture in isolation, plus a combined study that evaluates the models like
they will be used in real-world applications -- speech and gesture presented
together. The results show that participants rate one of the proposed
integrated synthesis models as being as good as the state-of-the-art pipeline
system we compare against, in all three tests. The model is able to achieve
this with faster synthesis time and greatly reduced parameter count compared to
the pipeline system, illustrating some of the potential benefits of treating
speech and gesture synthesis together as a single, unified problem. Videos and
code are available on our project page at https://swatsw.github.io/isg_icmi21/
- Abstract(参考訳): text-to-speechとco-speechのジェスチャー合成は、これまで2つの異なる研究コミュニティによって別々の領域として扱われてきた。
これは非効率をモデル化し、達成可能な自然性を制限する不整合をもたらす可能性がある。
そこで本研究では,統合音声・ジェスチャー合成(ISG)と呼ばれる新しい問題である,単一モデルで2つのモーダルを合成することを提案する。
また,この目的を達成するために,最先端のニューラル音声合成エンジンから修正したモデルセットを提案する。
3つの慎重に設計されたユーザスタディでモデルを評価し、そのうちの2つは、合成された音声とジェスチャーを分離して評価し、また、実際のアプリケーションで使用されるようなモデル(音声とジェスチャー)をまとめて評価する。
その結果,提案する統合合成モデルの1つを,我々が比較した最先端のパイプラインシステムと同等の精度で評価した。
このモデルは、合成時間を短縮し、パイプラインシステムに比べてパラメータ数を大幅に削減し、単一の統一問題として音声とジェスチャー合成を組み合わせることの潜在的な利点を明らかにした。
ビデオとコードはhttps://swatsw.github.io/isg_icmi21/にある。
関連論文リスト
- Fake it to make it: Using synthetic data to remedy the data shortage in joint multimodal speech-and-gesture synthesis [21.210982054134686]
テキストからの音声音声と音声による3Dジェスチャーの同時合成手法は,新しい,新たな分野である。
既存の手法は、すべての構成モダリティからの並列データに基づいて訓練される。
学生-教員法に着想を得て,追加の教材を簡易に合成することで,データ不足に対する直接的な解決法を提案する。
論文 参考訳(メタデータ) (2024-04-30T15:22:19Z) - Unified speech and gesture synthesis using flow matching [24.2094371314481]
本稿では,テキストから音声とスケルトンに基づく3次元ジェスチャーを共同で合成するための,新しい統一アーキテクチャを提案する。
提案したアーキテクチャは,従来の技術よりもシンプルで,メモリフットプリントが小さく,音声とジェスチャーの同時分布を捉えることができる。
論文 参考訳(メタデータ) (2023-10-08T14:37:28Z) - ORES: Open-vocabulary Responsible Visual Synthesis [104.7572323359984]
我々は、新しいタスクであるオープン語彙対応視覚合成(ORES)を定式化し、そこで合成モデルは、禁止された視覚概念を避けることができる。
この問題に対処するため,我々はTIN(Two-stage Intervention)フレームワークを提案する。
1)大規模言語モデル(LLM)による学習可能な命令による書き直し,2)拡散モデルへの迅速な介入による合成を行うことで,概念を避けながら可能な限りユーザのクエリに従うイメージを効果的に合成することができる。
論文 参考訳(メタデータ) (2023-08-26T06:47:34Z) - Diff-TTSG: Denoising probabilistic integrated speech and gesture
synthesis [19.35266496960533]
本稿では,Diff-TTSGと呼ばれる拡散型確率モデルについて述べる。
本稿では,統合音声とジェスチャー合成システムを評価するための,一様・多様主観的一様・多様主観的テストのセットについて述べる。
論文 参考訳(メタデータ) (2023-06-15T18:02:49Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Novel-View Acoustic Synthesis [140.1107768313269]
本稿では,NVASタスクについて紹介する。
音源の視点で観測された視界と音から 見えない対象の視点から そのシーンの音を合成できるか?
空間内の任意の点の音を合成することを学ぶ視覚誘導音響合成(ViGAS)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-20T18:49:58Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - On the Interplay Between Sparsity, Naturalness, Intelligibility, and
Prosody in Speech Synthesis [102.80458458550999]
スパーティイとその後の合成音声に対する効果のトレードオフについて検討する。
以上の結果から, 終末TTSモデルに限らず, プルーニングされたTTSモデルでも, 自然性や知性に富んだ合成音声を生成できることが示唆された。
論文 参考訳(メタデータ) (2021-10-04T02:03:28Z) - On-device neural speech synthesis [3.716815259884143]
TacotronとWaveRNNは、完全なニューラルネットワークベースのTSシステムの構築を可能にした。
我々は、これらのモデルをGPUサーバやモバイルデバイスにデプロイするための重要なモデリング改善と最適化戦略を示す。
提案システムは,サーバ上のリアルタイムよりも5倍,モバイルデバイス上では3倍の速さで,高品質な24kHz音声を生成することができる。
論文 参考訳(メタデータ) (2021-09-17T18:31:31Z) - Laughter Synthesis: Combining Seq2seq modeling with Transfer Learning [6.514358246805895]
本稿では,シーケンス・ツー・シーケンスTTS合成システムに基づく音声笑い合成システムを提案する。
我々は、深層学習モデルを訓練することで、翻訳学習を活用して、アノテーションから音声と笑いの両方を生成することを学習する。
論文 参考訳(メタデータ) (2020-08-20T09:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。