Fugu-MT 論文翻訳(概要): Learning Hierarchical Cross-Modal Association for Co-Speech Gesture Generation

論文の概要: Learning Hierarchical Cross-Modal Association for Co-Speech Gesture Generation

arxiv url: http://arxiv.org/abs/2203.13161v1
Date: Thu, 24 Mar 2022 16:33:29 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-25 14:29:34.237360
Title: Learning Hierarchical Cross-Modal Association for Co-Speech Gesture Generation
Title（参考訳）: 音声合成のための階層的クロスモーダルアソシエーションの学習
Authors: Xian Liu, Qianyi Wu, Hang Zhou, Yinghao Xu, Rui Qian, Xinyi Lin, Xiaowei Zhou, Wayne Wu, Bo Dai, Bolei Zhou
Abstract要約: 協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
参考スコア（独自算出の注目度）: 107.10239561664496
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generating speech-consistent body and gesture movements is a long-standing problem in virtual avatar creation. Previous studies often synthesize pose movement in a holistic manner, where poses of all joints are generated simultaneously. Such a straightforward pipeline fails to generate fine-grained co-speech gestures. One observation is that the hierarchical semantics in speech and the hierarchical structures of human gestures can be naturally described into multiple granularities and associated together. To fully utilize the rich connections between speech audio and human gestures, we propose a novel framework named Hierarchical Audio-to-Gesture (HA2G) for co-speech gesture generation. In HA2G, a Hierarchical Audio Learner extracts audio representations across semantic granularities. A Hierarchical Pose Inferer subsequently renders the entire human pose gradually in a hierarchical manner. To enhance the quality of synthesized gestures, we develop a contrastive learning strategy based on audio-text alignment for better audio representations. Extensive experiments and human evaluation demonstrate that the proposed method renders realistic co-speech gestures and outperforms previous methods in a clear margin. Project page: https://alvinliu0.github.io/projects/HA2G
Abstract（参考訳）: 音声一貫性のある身体とジェスチャーの動きの生成は、仮想アバター作成における長年の問題である。以前の研究はしばしば、すべての関節のポーズを同時に生成する全体的な方法でポーズを合成する。このような単純なパイプラインは、きめ細かい音声のジェスチャーを生成できない。 1つの観察は、音声における階層的意味論と人間のジェスチャーの階層的構造は、自然に複数の粒度に記述され、関連付けられることである。音声音声と人間のジェスチャーのリッチな接続をフル活用するために,音声合成のための階層型ジェスチャー生成(HA2G)という新しいフレームワークを提案する。 HA2Gでは、階層型オーディオ学習者が意味的な粒度を越えて音声表現を抽出する。階層的なポース推論はその後、階層的な方法で人間全体のポーズを徐々にレンダリングする。合成ジェスチャの品質を向上させるため,音声テキストアライメントに基づくコントラスト学習戦略を開発し,より優れた音声表現を実現する。広範にわたる実験と人的評価により,提案手法が現実的に協調ジェスチャを表現し,従来の手法を明確なマージンで上回ることを示した。プロジェクトページ: https://alvinliu0.github.io/projects/ha2g

関連論文リスト

Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。 Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2025-08-04T12:50:22Z)
EMO2: End-Effector Guided Audio-Driven Avatar Video Generation [17.816939983301474]
本稿では,表現力の高い表情と手の動きを同時に生成できる新しい音声駆動音声ヘッド手法を提案する。第1段階では、音声信号と手の動きの強い相関を利用して、音声入力から直接手振りを生成する。第2段階では、拡散モデルを用いてビデオフレームを合成し、第1段階で生成されたポーズを取り入れ、現実的な表情と身体の動きを生成する。
論文参考訳（メタデータ） (2025-01-18T07:51:29Z)
CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文参考訳（メタデータ） (2024-12-13T12:59:39Z)
ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文参考訳（メタデータ） (2024-03-26T17:59:52Z)
EMAGE: Towards Unified Holistic Co-Speech Gesture Generation via Expressive Masked Audio Gesture Modeling [57.08286593059137]
音声とマスクによるジェスチャーから全身の人間のジェスチャーを生成するためのフレームワークEMAGEを提案する。まずBEAT2(BEAT-SMPLX-FLAME)というメッシュレベルの音声合成データセットを紹介した。実験により、EMAGEは最先端のパフォーマンスで総合的なジェスチャーを生成することが示された。
論文参考訳（メタデータ） (2023-12-31T02:25:41Z)
LivelySpeaker: Towards Semantic-Aware Co-Speech Gesture Generation [41.42316077949012]
セマンティクスを意識した音声ジェスチャー生成を実現するフレームワークであるLivelySpeakerを紹介する。本手法では,タスクをスクリプトベースのジェスチャー生成とオーディオガイドによるリズム改善の2段階に分割する。新たな2段階生成フレームワークでは,妊娠スタイルの変更など,いくつかの応用が可能となった。
論文参考訳（メタデータ） (2023-09-17T15:06:11Z)
Audio is all in one: speech-driven gesture synthetics using WavLM pre-trained model [2.827070255699381]
diffmotion-v2は、WavLM事前学習モデルを用いた音声条件拡散に基づく生成モデルである。生音声のみを使用して、個人的でスタイリングされたフルボディの音声合成ジェスチャを生成することができる。
論文参考訳（メタデータ） (2023-08-11T08:03:28Z)
QPGesture: Quantization-Based and Phase-Guided Motion Matching for Natural Speech-Driven Gesture Generation [8.604430209445695]
音声によるジェスチャー生成は、人間の動きのランダムなジッタのため、非常に困難である。本稿では,新しい量子化に基づく位相誘導型モーションマッチングフレームワークを提案する。本手法は,音声によるジェスチャー生成における近年の手法よりも優れている。
論文参考訳（メタデータ） (2023-05-18T16:31:25Z)
Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文参考訳（メタデータ） (2022-12-05T15:28:22Z)
GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。 GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文参考訳（メタデータ） (2022-05-15T08:16:02Z)
Multi-view Temporal Alignment for Non-parallel Articulatory-to-Acoustic Speech Synthesis [59.623780036359655]
A2A(Articulatory-to-Aoustic)合成は、音声刺激器のキャプチャされた動きから可聴音声の生成を指します。この手法には、病気や怪我のためにもはや話せない人々への口頭コミュニケーションの回復など、多くの応用がある。本稿では,多視点学習の理論に基づく問題解決法を提案する。
論文参考訳（メタデータ） (2020-12-30T15:09:02Z)
Gesticulator: A framework for semantically-aware speech-driven gesture generation [17.284154896176553]
任意のビートとセマンティックなジェスチャーを同時に生成するモデルを提案する。深層学習に基づくモデルでは、音声の音響的表現と意味的表現の両方を入力とし、入力として関節角回転の列としてジェスチャーを生成する。結果として得られるジェスチャーは、仮想エージェントとヒューマノイドロボットの両方に適用できる。
論文参考訳（メタデータ） (2020-01-25T14:42:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。