論文の概要: Mamba-Enhanced Implicit Motion Learning for Audio-Driven Portrait Animation
- arxiv url: http://arxiv.org/abs/2606.03402v2
- Date: Wed, 03 Jun 2026 03:22:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 13:59:43.538599
- Title: Mamba-Enhanced Implicit Motion Learning for Audio-Driven Portrait Animation
- Title(参考訳): Mamba-Enhanced Implicit Motion Learning for Audio-Driven Portrait Animation
- Authors: Xuan Wei, Jiahui Chen, Kaiheng Li, Mingyu Shao, Qingqi Hong,
- Abstract要約: 本研究では,1つの静止画像とオーディオから,現実的で時間的に整合した人間の動画を生成するための,新しい暗黙の移動フレームワークを提案する。
私たちのアプローチでは、レンダリングからモーション予測を分離する2段階のパイプラインを使用します。
- 参考スコア(独自算出の注目度): 7.715774279707922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-driven human motion video generation aims to synthesize realistic and temporally coherent human animations from a single static image, with applications in talking-head synthesis, co-speech gesture generation, and dynamic presentations. Moving beyond conventional keypoint-based methods that often struggle to capture subtle motion dynamics, We propose a novel implicit-motion framework for generating realistic and temporally coherent human motion videos from a single static image and audio. Our approach uses a two-stage pipeline that decouples motion prediction from rendering. The first stage integrates appearance priors and hierarchical depth cues into a region-aware attention mechanism to model latent motion features. The second stage employs a Mamba-enhanced diffusion model to directly predict these features from audio and the source image, enabling unsupervised learning of fine-grained motion patterns. This decoupled architecture enhances flexibility and efficiency. Trained on a new 380-hour high-quality dataset, our method outperforms prior work across multiple public benchmarks and our collected data in accuracy, naturalness, and temporal coherence, setting a new state-of-the-art.
- Abstract(参考訳): 音声駆動型ヒューマンモーションビデオ生成は、単一の静的画像から現実的で時間的に整合した人間のアニメーションを合成することを目的としており、トーキングヘッド合成、共同音声ジェスチャー生成、動的プレゼンテーションに応用されている。
微妙な動きを捉えるのにしばしば苦労する従来のキーポイントベースの手法を超えて、我々は、単一の静止画像とオーディオから現実的で時間的に整合した人間のモーションビデオを生成するための新しい暗黙のモーションフレームワークを提案する。
私たちのアプローチでは、レンダリングからモーション予測を分離する2段階のパイプラインを使用します。
第1段階は、出現前と階層的な深さのキューを領域認識の注意機構に統合し、潜伏運動特徴をモデル化する。
第2段階では、マンバ強調拡散モデルを用いて、これらの特徴をオーディオとソースイメージから直接予測し、きめ細かい動きパターンの教師なし学習を可能にする。
この分離されたアーキテクチャは、柔軟性と効率性を高めます。
新しい380時間の高品質データセットに基づいて、我々の手法は、複数の公開ベンチマークと収集したデータを精度、自然性、時間的コヒーレンスで比較し、新しい最先端技術を確立する。
関連論文リスト
- MOSPA: Human Motion Generation Driven by Spatial Audio [83.31594478750682]
本稿では,多種多様で高品質な空間音声・動きデータを含む,空間音声駆動型人体運動データセットについて紹介する。
本研究では,身体運動と空間音声の関係を忠実に把握する,MOSPAと呼ばれるスパティアルオーディオによって駆動される人間の運動生成のためのフレームワークを開発する。
本手法は,本課題における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-07-16T06:33:11Z) - SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。
意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。
視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文 参考訳(メタデータ) (2025-06-30T10:09:32Z) - Hallo4: High-Fidelity Dynamic Portrait Animation via Direct Preference Optimization [43.81805412365791]
人中心アニメーションに適した直接選好最適化を提案する。
第二に、提案した時間運動変調は、分解ミスマッチを解消する。
実験では, 口唇音の同期, 表情の鮮明さ, 体の動きのコヒーレンスをベースライン法より明らかに改善した。
論文 参考訳(メタデータ) (2025-05-29T15:04:00Z) - A Self-supervised Motion Representation for Portrait Video Generation [19.56640370303683]
本稿では,コンパクトかつ表現力のある動き表現であるセマンティックラテントモーション(SeMo)を提案する。
提案手法は,高品質な視覚的結果と効率的な推論を両立させる。
我々のアプローチは、現実主義の81%の勝利率を持つ最先端モデルを上回る。
論文 参考訳(メタデータ) (2025-03-13T06:43:21Z) - Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation [29.87407471246318]
この研究は、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さを掘り下げている。
我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、階層的な音声駆動視覚合成モジュールを導入しています。
提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。
論文 参考訳(メタデータ) (2024-06-13T04:33:20Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Continuous-Time Video Generation via Learning Motion Dynamics with
Neural ODE [26.13198266911874]
動きと外観の異なる分布を学習する新しい映像生成手法を提案する。
本稿では,第1段階が任意のフレームレートで雑音ベクトルをキーポイント列に変換し,第2段階が与えられたキーポイントシーケンスと外観雑音ベクトルに基づいて映像を合成する2段階の手法を用いる。
論文 参考訳(メタデータ) (2021-12-21T03:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。