論文の概要: Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation
- arxiv url: http://arxiv.org/abs/2504.02542v1
- Date: Thu, 03 Apr 2025 12:44:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 17:08:46.25135
- Title: Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation
- Title(参考訳): モーク選択状態空間モデリングによる音声・視覚制御型音声拡散による音声対話ヘッド生成
- Authors: Fa-Ting Hong, Zunnan Xu, Zixiang Zhou, Jun Zhou, Xiu Li, Qin Lin, Qinglin Lu, Dan Xu,
- Abstract要約: 我々は,ヘッドビデオ生成のためのエンドツーエンドビデオ拡散フレームワークであるtextbfACTalkerを紹介する。
マルチコントロールのために,複数の枝を持つ並列マンバ構造を設計し,それぞれが個別の駆動信号を用いて特定の顔領域を制御する。
提案手法は,多様な信号によって駆動される自然な顔映像を生成し,マンバ層は相反なく複数の駆動モードをシームレスに統合することを示す。
- 参考スコア(独自算出の注目度): 34.11899046661299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Talking head synthesis is vital for virtual avatars and human-computer interaction. However, most existing methods are typically limited to accepting control from a single primary modality, restricting their practical utility. To this end, we introduce \textbf{ACTalker}, an end-to-end video diffusion framework that supports both multi-signals control and single-signal control for talking head video generation. For multiple control, we design a parallel mamba structure with multiple branches, each utilizing a separate driving signal to control specific facial regions. A gate mechanism is applied across all branches, providing flexible control over video generation. To ensure natural coordination of the controlled video both temporally and spatially, we employ the mamba structure, which enables driving signals to manipulate feature tokens across both dimensions in each branch. Additionally, we introduce a mask-drop strategy that allows each driving signal to independently control its corresponding facial region within the mamba structure, preventing control conflicts. Experimental results demonstrate that our method produces natural-looking facial videos driven by diverse signals and that the mamba layer seamlessly integrates multiple driving modalities without conflict.
- Abstract(参考訳): 頭合成は仮想アバターと人間とコンピュータの相互作用にとって不可欠である。
しかしながら、既存のほとんどの手法は、通常、単一の一次モダリティからの制御を受け入れることに限定され、実用性を制限する。
この目的のために,対話型ヘッドビデオ生成のための多信号制御と単一信号制御の両方をサポートするエンドツーエンドビデオ拡散フレームワークである‘textbf{ACTalker} を紹介する。
マルチコントロールのために,複数の枝を持つ並列マンバ構造を設計し,それぞれが個別の駆動信号を用いて特定の顔領域を制御する。
ゲート機構は全ブランチにまたがって適用され、ビデオ生成に対する柔軟な制御を提供する。
時間的・空間的に制御された映像の自然な協調を確保するために,各枝の両次元にまたがる特徴トークンを駆動信号で操作できるマンバ構造を用いる。
さらに、マスクドロップ方式を導入し、各駆動信号がマムバ構造内の対応する顔領域を独立に制御し、制御競合を防止する。
実験により,本手法は多様な信号で駆動される自然な顔映像を生成し,マンバ層は相反なく複数の駆動モダリティをシームレスに統合することを示した。
関連論文リスト
- Enabling Versatile Controls for Video Diffusion Models [18.131652071161266]
VCtrlは、事前訓練されたビデオ拡散モデルのきめ細かい制御を可能にするように設計された新しいフレームワークである。
総合的な実験と人的評価により、VCtrlは制御性と生成品質を効果的に向上させる。
論文 参考訳(メタデータ) (2025-03-21T09:48:00Z) - Cafe-Talk: Generating 3D Talking Face Animation with Multimodal Coarse- and Fine-grained Control [19.384766996505927]
3Dトーキングフェイス法は, 正確な唇同期と制御可能な表情を提供する必要がある。
粗い時間的・きめ細かい制御条件を同時に組み込んだ拡散変換器を用いた3次元音声合成モデルCafe-Talkを提案する。
実験により, Cafe-Talkは最先端の唇同期と表現性を達成し, ユーザスタディにおけるきめ細かい制御において広く受け入れられていることが証明された。
論文 参考訳(メタデータ) (2025-03-14T02:52:41Z) - SayAnything: Audio-Driven Lip Synchronization with Conditional Video Diffusion [78.77211425667542]
SayAnythingは、オーディオ入力から唇の動きを直接合成する条件付きビデオ拡散フレームワークである。
我々の新しい設計は、潜在空間における異なる条件信号のバランスを効果的に保ち、外観、動き、地域固有の生成を正確に制御できる。
論文 参考訳(メタデータ) (2025-02-17T07:29:36Z) - MotionBridge: Dynamic Video Inbetweening with Flexible Controls [29.029643539300434]
我々はMotionBridgeを紹介した。
トラジェクティブストローク、ビデオ編集マスク、ガイドピクセル、テキストビデオなど、柔軟なコントロールが可能だ。
このようなマルチモーダル制御は、よりダイナミックでカスタマイズ可能で、文脈的に正確な視覚的物語を可能にする。
論文 参考訳(メタデータ) (2024-12-17T18:59:33Z) - I2VControl: Disentangled and Unified Video Motion Synthesis Control [11.83645633418189]
I2VControlは,映像合成における複数の動作制御タスクを統一するフレームワークである。
提案手法では,映像を個々のモーションユニットに分割し,各ユニットをアンタングル制御信号で表現する。
我々の方法論は、事前訓練されたモデルのためのプラグインとしてシームレスに統合され、特定のモデルアーキテクチャに依存しないままです。
論文 参考訳(メタデータ) (2024-11-26T04:21:22Z) - Controllable Talking Face Generation by Implicit Facial Keypoints Editing [6.036277153327655]
本稿では,音声による表情の変形を制御するための音声合成手法であるControlTalkを提案する。
提案手法は,HDTFやMEADなど,広く使用されているベンチマークにおいて,最先端の性能よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-05T02:54:46Z) - MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model [78.11258752076046]
MOFA-Videoは、様々な制御可能な信号を用いて、所定の画像から映像を生成する高度な制御可能な画像アニメーション手法である。
ビデオ生成パイプラインの動作を制御するために,複数のドメイン対応モーションフィールドアダプタを設計する。
トレーニングの後、異なるドメインのMOFA-Adaptersは、より制御可能なビデオ生成のために協力することもできる。
論文 参考訳(メタデータ) (2024-05-30T16:22:22Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - Cocktail: Mixing Multi-Modality Controls for Text-Conditional Image
Generation [79.8881514424969]
テキスト条件拡散モデルは多種多様な内容の高忠実度画像を生成することができる。
しかし、言語表現はしばしば、想定された目的像の曖昧な記述を示す。
様々なモダリティを1つの埋め込みに混ぜるパイプラインであるCocktailを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:55:32Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - Zorro: the masked multimodal transformer [68.99684436029884]
ゾロ(Zorro)は、トランスフォーマー内の各モードからの入力をどのようにルーティングするかを制御するためにマスクを使用するテクニックである。
対照的な事前学習により、Zorroはマルチモーダルタスクの最も関連性の高いベンチマークで最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-01-23T17:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。