論文の概要: Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation
- arxiv url: http://arxiv.org/abs/2504.02542v3
- Date: Mon, 07 Apr 2025 09:32:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:11:44.357075
- Title: Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation
- Title(参考訳): モーク選択状態空間モデリングによる音声・視覚制御型音声拡散による音声対話ヘッド生成
- Authors: Fa-Ting Hong, Zunnan Xu, Zixiang Zhou, Jun Zhou, Xiu Li, Qin Lin, Qinglin Lu, Dan Xu,
- Abstract要約: textbfACTalkerは、多信号制御と単信号制御の両方をサポートするエンドツーエンドのビデオ拡散フレームワークである。
本手法は,多様な信号によって駆動される自然な顔映像を生成し,マンバ層は競合なく複数の駆動モードをシームレスに統合する。
- 参考スコア(独自算出の注目度): 34.11899046661299
- License:
- Abstract: Talking head synthesis is vital for virtual avatars and human-computer interaction. However, most existing methods are typically limited to accepting control from a single primary modality, restricting their practical utility. To this end, we introduce \textbf{ACTalker}, an end-to-end video diffusion framework that supports both multi-signals control and single-signal control for talking head video generation. For multiple control, we design a parallel mamba structure with multiple branches, each utilizing a separate driving signal to control specific facial regions. A gate mechanism is applied across all branches, providing flexible control over video generation. To ensure natural coordination of the controlled video both temporally and spatially, we employ the mamba structure, which enables driving signals to manipulate feature tokens across both dimensions in each branch. Additionally, we introduce a mask-drop strategy that allows each driving signal to independently control its corresponding facial region within the mamba structure, preventing control conflicts. Experimental results demonstrate that our method produces natural-looking facial videos driven by diverse signals and that the mamba layer seamlessly integrates multiple driving modalities without conflict. The project website can be found at https://harlanhong.github.io/publications/actalker/index.html.
- Abstract(参考訳): 頭合成は仮想アバターと人間とコンピュータの相互作用にとって不可欠である。
しかしながら、既存のほとんどの手法は、通常、単一の一次モダリティからの制御を受け入れることに限定され、実用性を制限する。
この目的のために,対話型ヘッドビデオ生成のための多信号制御と単一信号制御の両方をサポートするエンドツーエンドビデオ拡散フレームワークである‘textbf{ACTalker} を紹介する。
マルチコントロールのために,複数の枝を持つ並列マンバ構造を設計し,それぞれが個別の駆動信号を用いて特定の顔領域を制御する。
ゲート機構は全ブランチにまたがって適用され、ビデオ生成に対する柔軟な制御を提供する。
時間的・空間的に制御された映像の自然な協調を確保するために,各枝の両次元にまたがる特徴トークンを駆動信号で操作できるマンバ構造を用いる。
さらに、マスクドロップ方式を導入し、各駆動信号がマムバ構造内の対応する顔領域を独立に制御し、制御競合を防止する。
実験により,本手法は多様な信号で駆動される自然な顔映像を生成し,マンバ層は相反なく複数の駆動モダリティをシームレスに統合することを示した。
プロジェクトのWebサイトはhttps://harlanhong.github.io/publications/actalker/index.htmlにある。
関連論文リスト
- SayAnything: Audio-Driven Lip Synchronization with Conditional Video Diffusion [78.77211425667542]
SayAnythingは、オーディオ入力から唇の動きを直接合成する条件付きビデオ拡散フレームワークである。
我々の新しい設計は、潜在空間における異なる条件信号のバランスを効果的に保ち、外観、動き、地域固有の生成を正確に制御できる。
論文 参考訳(メタデータ) (2025-02-17T07:29:36Z) - MotionBridge: Dynamic Video Inbetweening with Flexible Controls [29.029643539300434]
我々はMotionBridgeを紹介した。
トラジェクティブストローク、ビデオ編集マスク、ガイドピクセル、テキストビデオなど、柔軟なコントロールが可能だ。
このようなマルチモーダル制御は、よりダイナミックでカスタマイズ可能で、文脈的に正確な視覚的物語を可能にする。
論文 参考訳(メタデータ) (2024-12-17T18:59:33Z) - I2VControl: Disentangled and Unified Video Motion Synthesis Control [11.83645633418189]
I2VControlは,映像合成における複数の動作制御タスクを統一するフレームワークである。
提案手法では,映像を個々のモーションユニットに分割し,各ユニットをアンタングル制御信号で表現する。
我々の方法論は、事前訓練されたモデルのためのプラグインとしてシームレスに統合され、特定のモデルアーキテクチャに依存しないままです。
論文 参考訳(メタデータ) (2024-11-26T04:21:22Z) - Controllable Talking Face Generation by Implicit Facial Keypoints Editing [6.036277153327655]
本稿では,音声による表情の変形を制御するための音声合成手法であるControlTalkを提案する。
提案手法は,HDTFやMEADなど,広く使用されているベンチマークにおいて,最先端の性能よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-05T02:54:46Z) - MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model [78.11258752076046]
MOFA-Videoは、様々な制御可能な信号を用いて、所定の画像から映像を生成する高度な制御可能な画像アニメーション手法である。
ビデオ生成パイプラインの動作を制御するために,複数のドメイン対応モーションフィールドアダプタを設計する。
トレーニングの後、異なるドメインのMOFA-Adaptersは、より制御可能なビデオ生成のために協力することもできる。
論文 参考訳(メタデータ) (2024-05-30T16:22:22Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - Cocktail: Mixing Multi-Modality Controls for Text-Conditional Image
Generation [79.8881514424969]
テキスト条件拡散モデルは多種多様な内容の高忠実度画像を生成することができる。
しかし、言語表現はしばしば、想定された目的像の曖昧な記述を示す。
様々なモダリティを1つの埋め込みに混ぜるパイプラインであるCocktailを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:55:32Z) - Zorro: the masked multimodal transformer [68.99684436029884]
ゾロ(Zorro)は、トランスフォーマー内の各モードからの入力をどのようにルーティングするかを制御するためにマスクを使用するテクニックである。
対照的な事前学習により、Zorroはマルチモーダルタスクの最も関連性の高いベンチマークで最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-01-23T17:51:39Z) - Progressive Disentangled Representation Learning for Fine-Grained
Controllable Talking Head Synthesis [15.700918566471277]
本稿では, 口唇の動き, 視線・瞬き, 頭部ポーズ, 感情表現に対して, ゆがみ, きめ細かな制御を実現するワンショット音声頭部合成法を提案する。
我々は、不整合潜在表現を介して異なる動きを表現し、画像生成器を活用して、それらから発声頭部を合成する。
論文 参考訳(メタデータ) (2022-11-26T07:52:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。