論文の概要: Bind-Your-Avatar: Multi-Talking-Character Video Generation with Dynamic 3D-mask-based Embedding Router
- arxiv url: http://arxiv.org/abs/2506.19833v1
- Date: Tue, 24 Jun 2025 17:50:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.759227
- Title: Bind-Your-Avatar: Multi-Talking-Character Video Generation with Dynamic 3D-mask-based Embedding Router
- Title(参考訳): Bind-Your-Avatar:動的3次元マスク型埋め込みルータを用いたマルチトーク・キャラクタ映像生成
- Authors: Yubo Huang, Weiqiang Wang, Sirui Zhao, Tong Xu, Lin Liu, Enhong Chen,
- Abstract要約: MM-DiTベースのモデルであるBind-Your-Avatarを紹介した。
具体的には,音とキャラクタの対応制御に対処するために,誰が誰と何を話し合うのかを結合する,きめ細かい埋め込みルータを組み込んだ新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 72.29811385678168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have witnessed remarkable advances in audio-driven talking head generation. However, existing approaches predominantly focus on single-character scenarios. While some methods can create separate conversation videos between two individuals, the critical challenge of generating unified conversation videos with multiple physically co-present characters sharing the same spatial environment remains largely unaddressed. This setting presents two key challenges: audio-to-character correspondence control and the lack of suitable datasets featuring multi-character talking videos within the same scene. To address these challenges, we introduce Bind-Your-Avatar, an MM-DiT-based model specifically designed for multi-talking-character video generation in the same scene. Specifically, we propose (1) A novel framework incorporating a fine-grained Embedding Router that binds `who' and `speak what' together to address the audio-to-character correspondence control. (2) Two methods for implementing a 3D-mask embedding router that enables frame-wise, fine-grained control of individual characters, with distinct loss functions based on observed geometric priors and a mask refinement strategy to enhance the accuracy and temporal smoothness of the predicted masks. (3) The first dataset, to the best of our knowledge, specifically constructed for multi-talking-character video generation, and accompanied by an open-source data processing pipeline, and (4) A benchmark for the dual-talking-characters video generation, with extensive experiments demonstrating superior performance over multiple state-of-the-art methods.
- Abstract(参考訳): 近年、音声駆動音声ヘッド生成の進歩が目覚ましい。
しかし、既存のアプローチは主にシングルキャラクタのシナリオに焦点を当てている。
いくつかの方法では2人の個人間で別々の会話ビデオを作成することができるが、同じ空間環境を共有する複数の物理的に共表現された複数の文字で統一された会話ビデオを生成するという重要な課題は、ほとんど未解決のままである。
この設定では、オーディオとキャラクタの対応制御と、同一シーン内で複数のキャラクタが会話するビデオを含む適切なデータセットの欠如という2つの重要な課題が提示される。
これらの課題に対処するため,MM-DiT ベースのモデルである Bind-Your-Avatar を紹介した。
具体的には,(1)「誰」と「何を話すか」を結合したきめ細かい埋め込みルータを組み込んだ新しいフレームワークを提案する。
2) 3次元マスク埋込ルータの2つの実装方法により,各文字のフレームワイド,きめ細かな制御が可能となる。
(3) マルチトーキング・キャラクタ・ビデオ生成に特化して構築された第1のデータセットと,オープンソースデータ処理パイプライン,(4) マルチトーキング・キャラクタ・ビデオ生成のためのベンチマーク。
関連論文リスト
- HunyuanVideo-Avatar: High-Fidelity Audio-Driven Human Animation for Multiple Characters [14.594698765723756]
HunyuanVideo-Avatarは動的、感情制御可能、マルチキャラクタ対話ビデオを同時に生成できるモデルである。
キャラクタイメージインジェクションモジュールは、従来の追加ベースのキャラクタコンディショニングスキームを置き換えるように設計されている。
AEM(Audio Emotion Module)を導入し、感情参照画像から感情手がかりを抽出し、ターゲット生成ビデオに転送する。
音声駆動型キャラクタを潜在レベルフェイスマスクで分離するために, 顔認識型オーディオアダプタ (FAA) を提案する。
論文 参考訳(メタデータ) (2025-05-26T15:57:27Z) - DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation [54.30327187663316]
DiTCtrlは、MM-DiTアーキテクチャの下で初めてトレーニング不要なマルチプロンプトビデオ生成手法である。
MM-DiTの注意機構を解析し、3次元のフルアテンションがUNetのような拡散モデルにおけるクロス/セルフアテンションブロックと同様の振る舞いを示す。
我々の注意深い設計に基づいて、DiTCtrlによって生成されたビデオは、複数のシーケンシャルプロンプトが与えられた滑らかな遷移と一貫した物体の動きを達成する。
論文 参考訳(メタデータ) (2024-12-24T18:51:19Z) - Follow-Your-MultiPose: Tuning-Free Multi-Character Text-to-Video Generation via Pose Guidance [29.768141136041454]
分離されたテキストをベースとした新しいマルチキャラクタ・ビデオ生成フレームワークを提案する。
具体的には、まずポーズシーケンスから文字マスクを抽出し、各生成文字の空間的位置を識別し、各文字の単一プロンプトをLLMで取得する。
ビデオ生成結果の可視化により,本手法の精度の高いマルチキャラクタ生成の可能性を示した。
論文 参考訳(メタデータ) (2024-12-21T05:49:40Z) - DreamRunner: Fine-Grained Compositional Story-to-Video Generation with Retrieval-Augmented Motion Adaptation [60.07447565026327]
本研究では,新しいストーリー・ツー・ビデオ生成手法であるDreamRunnerを提案する。
大規模言語モデル(LLM)を用いて入力スクリプトを構築し、粗粒度シーン計画と細粒度オブジェクトレベルのレイアウトと動き計画の両方を容易にする。
DreamRunnerは、検索拡張されたテストタイムアダプションで、各シーンのオブジェクトのターゲットモーションをキャプチャし、検索されたビデオに基づいたさまざまなモーションカスタマイズをサポートする。
論文 参考訳(メタデータ) (2024-11-25T18:41:56Z) - VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos [58.765796160750504]
VideoGLaMMは、ユーザが提供するテキスト入力に基づいて、ビデオの細かいピクセルレベルのグラウンド化を行うための新しいモデルである。
このアーキテクチャは、ビデオコンテンツの空間的要素と時間的要素の両方をテキスト命令と同期させるよう訓練されている。
実験の結果、我々のモデルは3つのタスクすべてで既存のアプローチより一貫して優れています。
論文 参考訳(メタデータ) (2024-11-07T17:59:27Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。