論文の概要: Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation
- arxiv url: http://arxiv.org/abs/2505.22647v1
- Date: Wed, 28 May 2025 17:57:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.787
- Title: Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation
- Title(参考訳): 音声による多人数会話型ビデオ生成
- Authors: Zhe Kong, Feng Gao, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Xunliang Cai, Guanying Chen, Wenhan Luo,
- Abstract要約: 本稿では,マルチパーソン会話ビデオ生成という新しい課題を提案する。
マルチパーソン世代における課題に対処するための新しいフレームワークであるMultiTalkを導入する。
- 参考スコア(独自算出の注目度): 34.15566431966277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-driven human animation methods, such as talking head and talking body generation, have made remarkable progress in generating synchronized facial movements and appealing visual quality videos. However, existing methods primarily focus on single human animation and struggle with multi-stream audio inputs, facing incorrect binding problems between audio and persons. Additionally, they exhibit limitations in instruction-following capabilities. To solve this problem, in this paper, we propose a novel task: Multi-Person Conversational Video Generation, and introduce a new framework, MultiTalk, to address the challenges during multi-person generation. Specifically, for audio injection, we investigate several schemes and propose the Label Rotary Position Embedding (L-RoPE) method to resolve the audio and person binding problem. Furthermore, during training, we observe that partial parameter training and multi-task training are crucial for preserving the instruction-following ability of the base model. MultiTalk achieves superior performance compared to other methods on several datasets, including talking head, talking body, and multi-person datasets, demonstrating the powerful generation capabilities of our approach.
- Abstract(参考訳): 対話ヘッドや発話体生成などの音声駆動型人間のアニメーション手法は、同期した顔の動きや魅力的な視覚的品質ビデオの生成において顕著な進歩を遂げている。
しかし、既存の手法は主に単一人間のアニメーションに焦点を当てており、音声と人との誤った結合問題に直面したマルチストリーム音声入力に苦戦している。
さらに、命令フォロー機能に制限がある。
この問題を解決するために,本稿では,マルチパーソン会話ビデオ生成という新しい課題を提案し,マルチパーソン世代における課題に対処する新しいフレームワークであるMultiTalkを提案する。
具体的には、オーディオインジェクションのためのいくつかのスキームを調査し、オーディオと人物の結合問題を解決するためにラベルロータリー位置埋め込み法(L-RoPE)を提案する。
さらに、トレーニング中は、基本モデルの指示追従能力を維持するために、部分パラメータトレーニングとマルチタスクトレーニングが重要であることを観察する。
MultiTalkは、音声頭、話し方、マルチパーソンデータセットなど、複数のデータセット上の他の手法と比較して優れたパフォーマンスを実現し、我々のアプローチの強力な生成能力を実証している。
関連論文リスト
- FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - Qwen-Audio: Advancing Universal Audio Understanding via Unified
Large-Scale Audio-Language Models [98.34889301515412]
我々はQwen-Audioモデルを開発し、30以上のタスクと様々なオーディオタイプをカバーするために、事前学習を拡大することで制限に対処する。
Qwen-Audioは、タスク固有の微調整を必要とせずに、様々なベンチマークタスクで素晴らしいパフォーマンスを実現している。
さらにQwen-Audio-Chatを開発し、様々なオーディオやテキスト入力からの入力を可能にし、マルチターン対話を可能にし、様々なオーディオ中心のシナリオをサポートする。
論文 参考訳(メタデータ) (2023-11-14T05:34:50Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video
Generation [54.84137342837465]
対面会話は毎日の会話の大部分を占める。
既存の手法のほとんどは、一人称音声音声生成に重点を置いている。
ニューラルレイディアンスフィールド(NeRF)に基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-15T14:16:49Z) - Robust One Shot Audio to Video Generation [10.957973845883162]
OneShotA2Vは、音声信号と人の単一の見えないイメージを入力として使用し、任意の長さの会話者のビデオを合成する新しいアプローチです。
OneShotA2Vはカリキュラム学習を利用して表情成分の動きを学習し、それによって与えられた人物の高品質なトーキングヘッドビデオを生成する。
論文 参考訳(メタデータ) (2020-12-14T10:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。