論文の概要: Think2Sing: Orchestrating Structured Motion Subtitles for Singing-Driven 3D Head Animation
- arxiv url: http://arxiv.org/abs/2509.02278v1
- Date: Tue, 02 Sep 2025 12:59:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.031057
- Title: Think2Sing: Orchestrating Structured Motion Subtitles for Singing-Driven 3D Head Animation
- Title(参考訳): Think2Sing: 歌駆動3Dヘッドアニメーションのための構造化モーションサブタイトルのオーケストレーション
- Authors: Zikai Huang, Yihan Zhou, Xuemiao Xu, Cheng Xu, Xiaofen Xing, Jing Qin, Shengfeng He,
- Abstract要約: 歌唱はより豊かな感情的なニュアンス、動的な韻律、歌詞に基づく意味論を含む。
既存の音声駆動アプローチは、しばしば過度に単純化され、感情的に平坦で、意味的に一貫性のない結果をもたらす。
Think2Singは、歌詞と音響の両方に調和したセマンティックコヒーレントで時間的に一貫した3Dヘッドアニメーションを生成する。
- 参考スコア(独自算出の注目度): 69.50178144839275
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Singing-driven 3D head animation is a challenging yet promising task with applications in virtual avatars, entertainment, and education. Unlike speech, singing involves richer emotional nuance, dynamic prosody, and lyric-based semantics, requiring the synthesis of fine-grained, temporally coherent facial motion. Existing speech-driven approaches often produce oversimplified, emotionally flat, and semantically inconsistent results, which are insufficient for singing animation. To address this, we propose Think2Sing, a diffusion-based framework that leverages pretrained large language models to generate semantically coherent and temporally consistent 3D head animations, conditioned on both lyrics and acoustics. A key innovation is the introduction of motion subtitles, an auxiliary semantic representation derived through a novel Singing Chain-of-Thought reasoning process combined with acoustic-guided retrieval. These subtitles contain precise timestamps and region-specific motion descriptions, serving as interpretable motion priors. We frame the task as a motion intensity prediction problem, enabling finer control over facial regions and improving the modeling of expressive motion. To support this, we create a multimodal singing dataset with synchronized video, acoustic descriptors, and motion subtitles, enabling diverse and expressive motion learning. Extensive experiments show that Think2Sing outperforms state-of-the-art methods in realism, expressiveness, and emotional fidelity, while also offering flexible, user-controllable animation editing.
- Abstract(参考訳): 歌手主導の3Dヘッドアニメーションは、仮想アバター、エンターテイメント、教育の応用において、挑戦的だが有望な課題である。
音声とは異なり、歌唱はより豊かな感情的なニュアンス、ダイナミックな韻律、歌詞に基づく意味論を含み、きめ細かい時間的に整合した顔の動きを合成する必要がある。
既存の音声駆動アプローチは、しばしば過度に単純化され、感情的に平坦で、意味的に矛盾した結果をもたらすが、アニメーションの歌唱には不十分である。
そこで本研究では,事前学習した大規模言語モデルを利用した拡散型フレームワークThink2Singを提案し,歌詞と音響の両方に条件付けした,意味的コヒーレントで時間的に一貫した3Dヘッドアニメーションを生成する。
重要な革新はモーション字幕の導入である。これは、新しいSinging Chain-of-Thought推論プロセスと音響誘導検索を組み合わせた、補助的な意味表現である。
これらの字幕には正確なタイムスタンプと地域固有の動作記述が含まれており、解釈可能な動作先行として機能する。
我々は,タスクを運動強度予測問題とみなし,顔領域をより細かく制御し,表現力のモデル化を改善する。
これをサポートするために、同期ビデオ、音響ディスクリプタ、モーション字幕を含むマルチモーダルな歌唱データセットを作成し、多種多様な表現型動作学習を可能にする。
大規模な実験により、Think2Singは現実主義、表現力、感情の忠実さにおいて最先端の手法よりも優れており、フレキシブルでユーザ制御可能なアニメーション編集も提供する。
関連論文リスト
- MEDTalk: Multimodal Controlled 3D Facial Animation with Dynamic Emotions by Disentangled Embedding [48.54455964043634]
MEDTalkは、きめ細かなダイナミックな会話ヘッド生成のための新しいフレームワークである。
音声と音声のテキストを統合し、フレームワイドの強度変化を予測し、静的な感情特徴を動的に調整し、リアルな感情表現を生成する。
生成した結果は、産業生産パイプラインに便利に統合できます。
論文 参考訳(メタデータ) (2025-07-08T15:14:27Z) - Versatile Multimodal Controls for Expressive Talking Human Animation [26.61771541877306]
VersaAnimatorは、任意のポートレート画像から表現力のある人間の動画を合成する多目的フレームワークである。
本稿では,3次元動作トークンを2次元ポーズシーケンスにスムーズにマッピングするトークン2poseトランスレータを提案する。
論文 参考訳(メタデータ) (2025-03-10T08:38:25Z) - ARTalk: Speech-Driven 3D Head Animation via Autoregressive Model [41.35209566957009]
音声駆動型3D顔アニメーションは、任意の音声クリップから3Dヘッドモデルのリアルな唇の動きと表情を生成することを目的としている。
本研究では,高度に同期した唇の動きと,リアルな頭部ポーズと瞬きをリアルタイムに生成する自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2025-02-27T17:49:01Z) - Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。
意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。
本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文 参考訳(メタデータ) (2024-04-17T17:59:55Z) - 3DiFACE: Diffusion-based Speech-driven 3D Facial Animation and Editing [22.30870274645442]
3DiFACEは、音声による顔のアニメーションと編集をパーソナライズする新しい方法である。
提案手法は,既存の最先端技術より優れ,忠実度と多様性が向上した音声駆動型アニメーションを実現する。
論文 参考訳(メタデータ) (2023-12-01T19:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。