論文の概要: MimicParts: Part-aware Style Injection for Speech-Driven 3D Motion Generation
- arxiv url: http://arxiv.org/abs/2510.13208v1
- Date: Wed, 15 Oct 2025 06:53:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.53076
- Title: MimicParts: Part-aware Style Injection for Speech-Driven 3D Motion Generation
- Title(参考訳): MimicParts: 音声駆動型3Dモーションジェネレーションのためのパート認識型インジェクション
- Authors: Lianlian Liu, YongKang He, Zhaojie Chu, Xiaofen Xing, Xiangmin Xu,
- Abstract要約: MimicPartsは、パートアウェアスタイルのインジェクションとパートアウェアのデノーミングネットワークに基づいて、スタイル化されたモーション生成を強化するために設計された新しいフレームワークである。
身体を異なる領域に分割し、局所的な動作スタイルを符号化することで、モデルがきめ細かい地域差を捉えることができる。
提案手法は, 自然性および表現力のある3次元動作シーケンスを示す既存手法より優れる。
- 参考スコア(独自算出の注目度): 30.215940521087642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating stylized 3D human motion from speech signals presents substantial challenges, primarily due to the intricate and fine-grained relationships among speech signals, individual styles, and the corresponding body movements. Current style encoding approaches either oversimplify stylistic diversity or ignore regional motion style differences (e.g., upper vs. lower body), limiting motion realism. Additionally, motion style should dynamically adapt to changes in speech rhythm and emotion, but existing methods often overlook this. To address these issues, we propose MimicParts, a novel framework designed to enhance stylized motion generation based on part-aware style injection and part-aware denoising network. It divides the body into different regions to encode localized motion styles, enabling the model to capture fine-grained regional differences. Furthermore, our part-aware attention block allows rhythm and emotion cues to guide each body region precisely, ensuring that the generated motion aligns with variations in speech rhythm and emotional state. Experimental results show that our method outperforming existing methods showcasing naturalness and expressive 3D human motion sequences.
- Abstract(参考訳): 音声信号からスタイリングされた人間の動作を生成することは、主に音声信号、個々のスタイル、およびそれに対応する身体の動きの間の複雑できめ細かな関係から、重大な課題を呈する。
現在のスタイルエンコーディングアプローチは、スタイル的多様性を過度に単純化するか、地域的な動きスタイルの違いを無視するか(例えば、上体と下体)、動きリアリズムを制限する。
さらに、動作スタイルは音声のリズムや感情の変化に動的に適応する必要があるが、既存の手法はしばしばこれを見落としている。
これらの課題に対処するために,パートアウェアスタイルのインジェクションとパートアウェアの認知ネットワークに基づくスタイル化動作生成を支援する新しいフレームワークであるMimicPartsを提案する。
身体を異なる領域に分割し、局所的な動作スタイルを符号化することで、モデルがきめ細かい地域差を捉えることができる。
さらに、我々のパートアウェアアテンションブロックは、リズムと感情の手がかりが各身体領域を正確にガイドし、生成した動きが音声リズムと感情状態の変動に一致することを保証する。
実験結果から,本手法は自然性や表現力に富む3次元の人間の動きを再現する手法よりも優れていることがわかった。
関連論文リスト
- SMooGPT: Stylized Motion Generation using Large Language Models [23.476473154719514]
スティル化運動生成はコンピュータグラフィックスにおいて活発に研究されており、特に拡散モデルの急速な進歩の恩恵を受けている。
既存の研究では、動作スタイルの転送や条件付き動作生成によってこの問題に対処しようとしている。
本稿では,身体部分のテキスト空間を中間表現として利用し,SMooGPTを提案する。
論文 参考訳(メタデータ) (2025-09-04T09:41:18Z) - Think2Sing: Orchestrating Structured Motion Subtitles for Singing-Driven 3D Head Animation [69.50178144839275]
歌唱はより豊かな感情的なニュアンス、動的な韻律、歌詞に基づく意味論を含む。
既存の音声駆動アプローチは、しばしば過度に単純化され、感情的に平坦で、意味的に一貫性のない結果をもたらす。
Think2Singは、歌詞と音響の両方に調和したセマンティックコヒーレントで時間的に一貫した3Dヘッドアニメーションを生成する。
論文 参考訳(メタデータ) (2025-09-02T12:59:27Z) - X-Dyna: Expressive Dynamic Human Image Animation [49.896933584815926]
X-Dynaは、単一の人間のイメージをアニメーションするための、ゼロショットで拡散ベースのパイプラインである。
対象と周辺環境の両方に対して現実的でコンテキスト対応のダイナミクスを生成する。
論文 参考訳(メタデータ) (2025-01-17T08:10:53Z) - MikuDance: Animating Character Art with Mixed Motion Dynamics [28.189884806755153]
そこで我々は,混合運動力学を取り入れた拡散型パイプラインであるMikuDanceを提案し,キャラクターアートをアニメーション化する。
具体的には、動的カメラをピクセル単位の空間で明示的にモデル化し、一貫したキャラクターシーンのモーションモデリングを可能にするシーンモーショントラッキング戦略を示す。
モーション適応正規化モジュールは、グローバルなシーン動作を効果的に注入するために組み込まれ、総合的なキャラクターアートアニメーションの道を開く。
論文 参考訳(メタデータ) (2024-11-13T14:46:41Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - Speech-Driven 3D Face Animation with Composite and Regional Facial
Movements [30.348768852726295]
音声駆動の3D顔アニメーションは、人間の顔の動きに固有の複雑さと変動性のために大きな課題を提起する。
本稿では,音声駆動型3次元顔画像における顔の動きの複合的・局所的特性を両立させることの重要性を強調した。
論文 参考訳(メタデータ) (2023-08-10T08:42:20Z) - Freeform Body Motion Generation from Speech [53.50388964591343]
音声から体の動きを生成することは、音声から体の動きへの非決定論的マッピングのために本質的に困難である。
2ストリームアーキテクチャを組み込んだ新しいフリーフォームモーション生成モデル(FreeMo)を提案する。
実験は、いくつかのベースラインに対して優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-04T13:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。