論文の概要: EchoMask: Speech-Queried Attention-based Mask Modeling for Holistic Co-Speech Motion Generation
- arxiv url: http://arxiv.org/abs/2504.09209v1
- Date: Sat, 12 Apr 2025 13:30:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:49:08.795758
- Title: EchoMask: Speech-Queried Attention-based Mask Modeling for Holistic Co-Speech Motion Generation
- Title(参考訳): EchoMask: 音声定位注意型マスクモデリングによる音声合成
- Authors: Xiangyue Zhang, Jianfang Li, Jiaxu Zhang, Jianqiang Ren, Liefeng Bo, Zhigang Tu,
- Abstract要約: 共同音声動画像生成のための音声クエリアテンションに基づくマスキングフレームワークを提案する。
我々の重要な洞察は、動きに沿った音声機能を活用して、マスクされた動きモデリングプロセスを導くことである。
- 参考スコア(独自算出の注目度): 20.755563616260016
- License:
- Abstract: Masked modeling framework has shown promise in co-speech motion generation. However, it struggles to identify semantically significant frames for effective motion masking. In this work, we propose a speech-queried attention-based mask modeling framework for co-speech motion generation. Our key insight is to leverage motion-aligned speech features to guide the masked motion modeling process, selectively masking rhythm-related and semantically expressive motion frames. Specifically, we first propose a motion-audio alignment module (MAM) to construct a latent motion-audio joint space. In this space, both low-level and high-level speech features are projected, enabling motion-aligned speech representation using learnable speech queries. Then, a speech-queried attention mechanism (SQA) is introduced to compute frame-level attention scores through interactions between motion keys and speech queries, guiding selective masking toward motion frames with high attention scores. Finally, the motion-aligned speech features are also injected into the generation network to facilitate co-speech motion generation. Qualitative and quantitative evaluations confirm that our method outperforms existing state-of-the-art approaches, successfully producing high-quality co-speech motion.
- Abstract(参考訳): マスケド・モデリング・フレームワークは、共同音声の動作生成において有望であることを示す。
しかし、効果的な動きマスキングのための意味的に重要なフレームを特定するのに苦労している。
本研究では,共同音声動作生成のための音声認識による注目度に基づくマスキングフレームワークを提案する。
我々の重要な洞察は、動きに沿った音声機能を活用して、リズム関連および意味表現的な動きフレームを選択的にマスキングし、マスクされた動きモデリングプロセスを導くことである。
具体的には、まず、遅延したモーションオーディオ関節空間を構築するためのモーションオーディオアライメントモジュール(MAM)を提案する。
この領域では、低レベルと高レベルの両方の音声特徴を投影し、学習可能な音声クエリを用いて動きに沿った音声表現を可能にする。
そして、フレームレベルのアテンションスコアを動きキーと音声クエリ間の相互作用を通じて算出し、高いアテンションスコアを有する動きフレームに対して選択的マスキングを導くために、音声クエリアテンションメカニズム(SQA)を導入する。
最後に、動作整列音声特徴を生成ネットワークに注入し、共同音声動作生成を容易にする。
定性的および定量的評価により,提案手法は既存の最先端手法よりも優れ,高品質な音声合成を実現することができた。
関連論文リスト
- Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation [52.337472185022136]
我々は、静的な画像をテキスト記述に基づいてリアルな映像シーケンスに変換するI2V(Image-to-Video)生成の課題について検討する。
I2V生成を分解する2段階の合成フレームワークを提案する。 (i) 明示的な中間表現生成段階, (ii) この表現に条件付けされたビデオ生成段階。
提案手法は,マルチオブジェクトおよびハイモーションシナリオを用いた挑戦的ベンチマークにおいて評価し,提案手法が最先端の整合性を実現することを実証的に示す。
論文 参考訳(メタデータ) (2025-01-06T14:49:26Z) - SemTalk: Holistic Co-speech Motion Generation with Frame-level Semantic Emphasis [19.764460501254607]
一般的なリズム運動と稀だが本質的なセマンティックモーションを慎重に統合しなければ、良好な音声合成が達成できない。
本稿では,フレームレベルのセマンティクスを重視した音声合成のためのSemTalkを提案する。
論文 参考訳(メタデータ) (2024-12-21T10:16:07Z) - Dynamic Motion Synthesis: Masked Audio-Text Conditioned Spatio-Temporal Transformers [13.665279127648658]
本研究は,複数モーダルに条件付き全体動き列を同時に生成する新しい動き生成フレームワークを提案する。
空間的注意機構とトークン批評家を統合することで、生成した動きの一貫性と自然性を確保することができる。
論文 参考訳(メタデータ) (2024-09-03T04:19:27Z) - Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model [17.98911328064481]
共同音声ジェスチャーは、人間と機械の相互作用において優れた視覚効果を得ることができる。
共同音声ジェスチャビデオを生成するための新しい動き分離フレームワークを提案する。
提案手法は,動作評価と映像評価の両方において,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-02T11:40:34Z) - EMAGE: Towards Unified Holistic Co-Speech Gesture Generation via Expressive Masked Audio Gesture Modeling [57.08286593059137]
音声とマスクによるジェスチャーから全身の人間のジェスチャーを生成するためのフレームワークEMAGEを提案する。
まずBEAT2(BEAT-SMPLX-FLAME)というメッシュレベルの音声合成データセットを紹介した。
実験により、EMAGEは最先端のパフォーマンスで総合的なジェスチャーを生成することが示された。
論文 参考訳(メタデータ) (2023-12-31T02:25:41Z) - SpeechGen: Unlocking the Generative Power of Speech Language Models with
Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。
提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-03T22:35:27Z) - MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。
本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。
文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文 参考訳(メタデータ) (2022-12-08T18:59:48Z) - Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。
私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。
本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文 参考訳(メタデータ) (2022-12-05T15:28:22Z) - Freeform Body Motion Generation from Speech [53.50388964591343]
音声から体の動きを生成することは、音声から体の動きへの非決定論的マッピングのために本質的に困難である。
2ストリームアーキテクチャを組み込んだ新しいフリーフォームモーション生成モデル(FreeMo)を提案する。
実験は、いくつかのベースラインに対して優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-04T13:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。