論文の概要: Rhythmic Gesticulator: Rhythm-Aware Co-Speech Gesture Synthesis with
Hierarchical Neural Embeddings
- arxiv url: http://arxiv.org/abs/2210.01448v3
- Date: Thu, 4 May 2023 12:13:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 19:39:44.390407
- Title: Rhythmic Gesticulator: Rhythm-Aware Co-Speech Gesture Synthesis with
Hierarchical Neural Embeddings
- Title(参考訳): Rhythmic Gesticulator:階層型ニューラルエンベディングを用いたリズム対応音声合成
- Authors: Tenglong Ao, Qingzhe Gao, Yuke Lou, Baoquan Chen, Libin Liu
- Abstract要約: 本稿では、リズムとセマンティクスの両方で説得力のある結果が得られる新しい音声合成法を提案する。
本システムでは,発声とジェスチャーの時間的コヒーレンスを確保するために,ロバストなリズムベースセグメンテーションパイプラインを備えている。
ジェスチャーのセマンティクスにおいて,言語理論に基づく低レベルと高レベルの両方のニューラル埋め込みを効果的に解消する機構を考案する。
- 参考スコア(独自算出の注目度): 27.352570417976153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic synthesis of realistic co-speech gestures is an increasingly
important yet challenging task in artificial embodied agent creation. Previous
systems mainly focus on generating gestures in an end-to-end manner, which
leads to difficulties in mining the clear rhythm and semantics due to the
complex yet subtle harmony between speech and gestures. We present a novel
co-speech gesture synthesis method that achieves convincing results both on the
rhythm and semantics. For the rhythm, our system contains a robust rhythm-based
segmentation pipeline to ensure the temporal coherence between the vocalization
and gestures explicitly. For the gesture semantics, we devise a mechanism to
effectively disentangle both low- and high-level neural embeddings of speech
and motion based on linguistic theory. The high-level embedding corresponds to
semantics, while the low-level embedding relates to subtle variations. Lastly,
we build correspondence between the hierarchical embeddings of the speech and
the motion, resulting in rhythm- and semantics-aware gesture synthesis.
Evaluations with existing objective metrics, a newly proposed rhythmic metric,
and human feedback show that our method outperforms state-of-the-art systems by
a clear margin.
- Abstract(参考訳): リアルな音声ジェスチャーの自動合成は, 人工内在エージェント作成において, ますます重要な課題となっている。
従来のシステムは、主にエンドツーエンドでジェスチャーを生成することに焦点を当てており、音声とジェスチャーの複雑な微妙な調和のため、明確なリズムと意味をマイニングするのは難しい。
本稿では、リズムとセマンティクスの両方で説得力のある結果が得られる新しい音声合成法を提案する。
本システムでは,発声とジェスチャーの時間的コヒーレンスを確保するために,ロバストなリズムベースセグメンテーションパイプラインを備えている。
ジェスチャーセマンティクスについては,言語理論に基づく音声と動作の低レベルおよび高レベルの神経埋め込みを効果的に分離するメカニズムを考案する。
高レベルの埋め込みは意味論に対応し、低レベルの埋め込みは微妙なバリエーションに関連する。
最後に、音声の階層的な埋め込みと動きの対応性を構築し、リズムと意味を意識したジェスチャー合成を実現する。
既存の客観的指標,新たに提案されたリズミカル指標,人的フィードバックによる評価から,本手法が最先端システムよりも明確なマージンで優れていることが示された。
関連論文リスト
- Neuron: Learning Context-Aware Evolving Representations for Zero-Shot Skeleton Action Recognition [64.56321246196859]
本稿では,dUalスケルトン・セマンティック・セマンティック・セマンティック・セマンティック・シンジスティック・フレームワークを提案する。
まず、時空間進化型マイクロプロトタイプを構築し、動的コンテキスト認識側情報を統合する。
本研究では,空間的圧縮と時間的記憶機構を導入し,空間的時間的マイクロプロトタイプの成長を導く。
論文 参考訳(メタデータ) (2024-11-18T05:16:11Z) - Emphasizing Semantic Consistency of Salient Posture for Speech-Driven Gesture Generation [44.78811546051805]
音声駆動ジェスチャ生成は、入力音声信号と同期したジェスチャシーケンスを合成することを目的としている。
従来の手法では、ニューラルネットワークを利用して、コンパクトな音声表現をジェスチャーシーケンスに直接マッピングする。
そこで本稿では,姿勢のセマンティック一貫性を重視した音声によるジェスチャー生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-17T17:22:59Z) - Semantic Gesticulator: Semantics-Aware Co-Speech Gesture Synthesis [25.822870767380685]
本稿では,セマンティック・ゲスティキュレータについて述べる。セマンティック・ジェスチャは,セマンティック・ジェスチャを強力なセマンティック・アセプティクスで合成するためのフレームワークである。
本システムでは,リズミカルコヒーレントかつセマンティックな動作を生成する上で,ロバスト性を示す。
我々のシステムは、意味的適切性の観点から、最先端のシステムよりも明確なマージンで優れています。
論文 参考訳(メタデータ) (2024-05-16T05:09:01Z) - Unified speech and gesture synthesis using flow matching [24.2094371314481]
本稿では,テキストから音声とスケルトンに基づく3次元ジェスチャーを共同で合成するための,新しい統一アーキテクチャを提案する。
提案したアーキテクチャは,従来の技術よりもシンプルで,メモリフットプリントが小さく,音声とジェスチャーの同時分布を捉えることができる。
論文 参考訳(メタデータ) (2023-10-08T14:37:28Z) - LivelySpeaker: Towards Semantic-Aware Co-Speech Gesture Generation [41.42316077949012]
セマンティクスを意識した音声ジェスチャー生成を実現するフレームワークであるLivelySpeakerを紹介する。
本手法では,タスクをスクリプトベースのジェスチャー生成とオーディオガイドによるリズム改善の2段階に分割する。
新たな2段階生成フレームワークでは,妊娠スタイルの変更など,いくつかの応用が可能となった。
論文 参考訳(メタデータ) (2023-09-17T15:06:11Z) - Revisiting Conversation Discourse for Dialogue Disentanglement [88.3386821205896]
本稿では,対話談話特性を最大限に活用し,対話の絡み合いを高めることを提案する。
我々は,会話の意味的文脈をより良くモデル化するために,リッチな構造的特徴を統合する構造認識フレームワークを開発した。
我々の研究は、より広範なマルチスレッド対話アプリケーションを促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-06T19:17:47Z) - Exploration strategies for articulatory synthesis of complex syllable
onsets [20.422871314256266]
高品質な調音音声合成は、音声科学と技術に多くの潜在的な応用がある。
手作業による介入なしにこれらのマッピングを学習するための第一歩として,最適化ベースのフレームワークを構築した。
論文 参考訳(メタデータ) (2022-04-20T10:47:28Z) - Deep Neural Convolutive Matrix Factorization for Articulatory
Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。
音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文 参考訳(メタデータ) (2022-04-01T14:25:19Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。