論文の概要: Unified speech and gesture synthesis using flow matching
- arxiv url: http://arxiv.org/abs/2310.05181v1
- Date: Sun, 8 Oct 2023 14:37:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 11:44:26.097992
- Title: Unified speech and gesture synthesis using flow matching
- Title(参考訳): フローマッチングを用いた統一音声とジェスチャー合成
- Authors: Shivam Mehta, Ruibo Tu, Simon Alexanderson, Jonas Beskow, \'Eva
Sz\'ekely, Gustav Eje Henter
- Abstract要約: 本稿では,テキストから音声とスケルトンに基づく3次元ジェスチャーを共同で合成するための,新しい統一アーキテクチャを提案する。
提案したアーキテクチャは,従来の技術よりもシンプルで,メモリフットプリントが小さく,音声とジェスチャーの同時分布を捉えることができる。
新たなトレーニング体制であるシンセサイザーは、以前よりもはるかに少ないステップ(ネットワーク評価)で、より良い品質を実現する。
- 参考スコア(独自算出の注目度): 24.2094371314481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As text-to-speech technologies achieve remarkable naturalness in read-aloud
tasks, there is growing interest in multimodal synthesis of verbal and
non-verbal communicative behaviour, such as spontaneous speech and associated
body gestures. This paper presents a novel, unified architecture for jointly
synthesising speech acoustics and skeleton-based 3D gesture motion from text,
trained using optimal-transport conditional flow matching (OT-CFM). The
proposed architecture is simpler than the previous state of the art, has a
smaller memory footprint, and can capture the joint distribution of speech and
gestures, generating both modalities together in one single process. The new
training regime, meanwhile, enables better synthesis quality in much fewer
steps (network evaluations) than before. Uni- and multimodal subjective tests
demonstrate improved speech naturalness, gesture human-likeness, and
cross-modal appropriateness compared to existing benchmarks.
- Abstract(参考訳): テキスト対音声技術が読解課題において顕著な自然性を達成するにつれて、自然発話や身体のジェスチャーといった言語的および非言語的コミュニケーション行動のマルチモーダル合成への関心が高まっている。
本稿では,音声音響とスケルトンに基づく3次元ジェスチャーをテキストから統合的に合成する新しいアーキテクチャを提案する。
提案されたアーキテクチャは、以前の技術よりもシンプルで、メモリフットプリントが小さく、音声とジェスチャーのジョイント分布をキャプチャし、1つのプロセスで両方のモダリティを生成することができる。
新たなトレーニング体制は、これまでよりもはるかに少ないステップ(ネットワーク評価)で、より良い合成品質を実現する。
単モードと多モードの主観テストでは、既存のベンチマークと比較して、音声の自然性、ジェスチャーの人間的類似性、クロスモーダル適合性が改善された。
関連論文リスト
- VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - UnifiedGesture: A Unified Gesture Synthesis Model for Multiple Skeletons [16.52004713662265]
本稿では,異なる骨格を持つ複数のジェスチャーデータセットに基づいて学習した,拡散モデルに基づく音声駆動ジェスチャー合成手法を提案する。
次に、局所的注意と自己注意を用いた拡散モデルアーキテクチャに基づいて、音声とジェスチャーの相関関係を抽出する。
実験により、UnifiedGestureは、CCA、FGD、人間類似性の観点から、音声駆動ジェスチャ生成における最近のアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-09-13T16:07:25Z) - ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph
Reading [65.88161811719353]
本研究は、軽量で効果的なテキスト音声合成システムであるContextSpeechを開発する。
まず,グローバルテキストと音声コンテキストを文エンコーディングに組み込むメモリキャッシュ再帰機構を設計する。
我々は,グローバルな文脈拡張の範囲を広げるため,階層的に構造化されたテキストセマンティクスを構築した。
実験の結果,ContextSpeechは段落読解における音質と韻律を競争モデル効率で著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-07-03T06:55:03Z) - Diff-TTSG: Denoising probabilistic integrated speech and gesture
synthesis [19.35266496960533]
本稿では,Diff-TTSGと呼ばれる拡散型確率モデルについて述べる。
本稿では,統合音声とジェスチャー合成システムを評価するための,一様・多様主観的一様・多様主観的テストのセットについて述べる。
論文 参考訳(メタデータ) (2023-06-15T18:02:49Z) - QPGesture: Quantization-Based and Phase-Guided Motion Matching for
Natural Speech-Driven Gesture Generation [8.604430209445695]
音声によるジェスチャー生成は、人間の動きのランダムなジッタのため、非常に困難である。
本稿では,新しい量子化に基づく位相誘導型モーションマッチングフレームワークを提案する。
本手法は,音声によるジェスチャー生成における近年の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:31:25Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Integrated Speech and Gesture Synthesis [26.267738299876314]
テキスト音声合成と共同音声合成は、これまで2つの異なる研究コミュニティによって別々の領域として扱われてきた。
統合音声・ジェスチャー合成(ISG)と呼ばれる新しい問題である,2つのモーダルを1つのモデルで合成することを提案する。
モデルは、パイプラインシステムと比較して、より高速な合成時間とパラメータ数でこれを実現することができる。
論文 参考訳(メタデータ) (2021-08-25T19:04:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。