論文の概要: Generating coherent spontaneous speech and gesture from text
- arxiv url: http://arxiv.org/abs/2101.05684v1
- Date: Thu, 14 Jan 2021 16:02:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 00:42:55.856779
- Title: Generating coherent spontaneous speech and gesture from text
- Title(参考訳): テキストからのコヒーレントな自然発話とジェスチャーの生成
- Authors: Simon Alexanderson, \'Eva Sz\'ekely, Gustav Eje Henter, Taras
Kucherenko, Jonas Beskow
- Abstract要約: 人体コミュニケーションは、言語情報(音声)と非言語情報(ジェスチャーや頭の動きなど)の両方を含む
機械学習の最近の進歩は、これらのデータの両方の合成バージョンを生成する技術を大幅に改善した。
私たちはこの2つの最先端技術を初めてコヒーレントな方法で組み合わせました。
- 参考スコア(独自算出の注目度): 21.90157862281996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied human communication encompasses both verbal (speech) and non-verbal
information (e.g., gesture and head movements). Recent advances in machine
learning have substantially improved the technologies for generating synthetic
versions of both of these types of data: On the speech side, text-to-speech
systems are now able to generate highly convincing, spontaneous-sounding speech
using unscripted speech audio as the source material. On the motion side,
probabilistic motion-generation methods can now synthesise vivid and lifelike
speech-driven 3D gesticulation. In this paper, we put these two
state-of-the-art technologies together in a coherent fashion for the first
time. Concretely, we demonstrate a proof-of-concept system trained on a
single-speaker audio and motion-capture dataset, that is able to generate both
speech and full-body gestures together from text input. In contrast to previous
approaches for joint speech-and-gesture generation, we generate full-body
gestures from speech synthesis trained on recordings of spontaneous speech from
the same person as the motion-capture data. We illustrate our results by
visualising gesture spaces and text-speech-gesture alignments, and through a
demonstration video at https://simonalexanderson.github.io/IVA2020 .
- Abstract(参考訳): 人体コミュニケーションは、言語情報(音声)と非言語情報(ジェスチャーや頭の動きなど)の両方を含む。
機械学習の最近の進歩は、これらのデータの両方の合成バージョンを生成する技術を大幅に改善した: 音声側では、テキストから音声への変換システムは、書き起こされていない音声を素材として、非常に説得力のある自発的な音声を生成することができるようになった。
動作側では、確率論的モーションジェネレーション法が、生き生きとした音声駆動の3Dジェスチャーを合成できるようになった。
本稿では,これら2つの最先端技術を初めてコヒーレントな方法で統合する。
具体的には,テキスト入力から音声と全身ジェスチャーの両方を生成できる単一話者音声とモーションキャプチャデータセットで学習した概念実証システムを示す。
モーションキャプチャデータと同一人物からの自発音声の録音を訓練した音声合成から,先行した音声とジェスチャ生成のアプローチとは対照的に,全身ジェスチャを生成する。
ジェスチャー空間とテキスト-音声のアライメントを可視化し、https://simonalexanderson.github.io/iva2020のデモビデオを通して結果を示す。
関連論文リスト
- Speech2rtMRI: Speech-Guided Diffusion Model for Real-time MRI Video of the Vocal Tract during Speech [29.510756530126837]
音声中の人間の声道のMRIビデオにおいて,音声を視覚的に表現するデータ駆動方式を提案する。
先行知識に埋め込まれた大規模な事前学習音声モデルを用いて、視覚領域を一般化し、見当たらないデータを生成する。
論文 参考訳(メタデータ) (2024-09-23T20:19:24Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - Neural Text to Articulate Talk: Deep Text to Audiovisual Speech
Synthesis achieving both Auditory and Photo-realism [26.180371869137257]
会話顔生成における最先端技術は、主にリップシンキングに焦点を当て、音声クリップに条件付けされている。
NEUral Text to ARticulate Talk (NEUTART) は、音声視覚機能空間を用いた音声合成システムである。
モデルは、人間のような調音と、よく同期されたオーディオヴィジュアルストリームを備えた、フォトリアリスティックなトーキングフェイスビデオを生成する。
論文 参考訳(メタデータ) (2023-12-11T18:41:55Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Joint Audio-Text Model for Expressive Speech-Driven 3D Facial Animation [46.8780140220063]
本稿では,表情駆動型3次元顔画像の文脈情報を取得するための共同音声テキストモデルを提案する。
我々の仮説は、音声と強く相関しない上面表現のバリエーションを曖昧にすることができるというものである。
音声と音声の同期を保ちながら現実的な表情を合成できることを示す。
論文 参考訳(メタデータ) (2021-12-04T01:37:22Z) - AnyoneNet: Synchronized Speech and Talking Head Generation for Arbitrary
Person [21.126759304401627]
本稿では,テキストと任意の人物の顔画像を入力として,同期音声とトーキングヘッド映像を自動生成する手法を提案する。
実験の結果,提案手法は任意の人や非人に対して,同期音声と音声のヘッドビデオを生成することができることがわかった。
論文 参考訳(メタデータ) (2021-08-09T19:58:38Z) - Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。
本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。
われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文 参考訳(メタデータ) (2021-02-13T01:05:39Z) - Gesticulator: A framework for semantically-aware speech-driven gesture
generation [17.284154896176553]
任意のビートとセマンティックなジェスチャーを同時に生成するモデルを提案する。
深層学習に基づくモデルでは、音声の音響的表現と意味的表現の両方を入力とし、入力として関節角回転の列としてジェスチャーを生成する。
結果として得られるジェスチャーは、仮想エージェントとヒューマノイドロボットの両方に適用できる。
論文 参考訳(メタデータ) (2020-01-25T14:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。