論文の概要: AnyTalker: Scaling Multi-Person Talking Video Generation with Interactivity Refinement
- arxiv url: http://arxiv.org/abs/2511.23475v1
- Date: Fri, 28 Nov 2025 18:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:56.037612
- Title: AnyTalker: Scaling Multi-Person Talking Video Generation with Interactivity Refinement
- Title(参考訳): AnyTalker: インタラクティブリファインメントによるマルチパーソントークビデオ生成のスケールアップ
- Authors: Zhizhou Zhong, Yicheng Ji, Zhe Kong, Yiying Liu, Jiarui Wang, Jiasun Feng, Lupeng Liu, Xiangyi Wang, Yanjia Li, Yuqing She, Ying Qin, Huan Li, Shuiyang Mao, Wei Liu, Wenhan Luo,
- Abstract要約: マルチストリーム処理アーキテクチャを特徴とするマルチパーソン生成フレームワークであるAnyTalkerを提案する。
本研究では,Diffusion Transformerのアテンションブロックを,IDとオーディオのペアを反復的に処理する新しいID対応アテンション機構で拡張する。
提案するトレーニングパイプラインは,複数対人会話パターンを学習し,実際の複数対人クリップでのみ対話性を洗練するために,単対人ビデオにのみ依存する。
- 参考スコア(独自算出の注目度): 30.435102560798455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, multi-person video generation has started to gain prominence. While a few preliminary works have explored audio-driven multi-person talking video generation, they often face challenges due to the high costs of diverse multi-person data collection and the difficulty of driving multiple identities with coherent interactivity. To address these challenges, we propose AnyTalker, a multi-person generation framework that features an extensible multi-stream processing architecture. Specifically, we extend Diffusion Transformer's attention block with a novel identity-aware attention mechanism that iteratively processes identity-audio pairs, allowing arbitrary scaling of drivable identities. Besides, training multi-person generative models demands massive multi-person data. Our proposed training pipeline depends solely on single-person videos to learn multi-person speaking patterns and refines interactivity with only a few real multi-person clips. Furthermore, we contribute a targeted metric and dataset designed to evaluate the naturalness and interactivity of the generated multi-person videos. Extensive experiments demonstrate that AnyTalker achieves remarkable lip synchronization, visual quality, and natural interactivity, striking a favorable balance between data costs and identity scalability.
- Abstract(参考訳): 近年,多人数ビデオ生成が注目されている。
いくつかの予備的な研究は、音声による多人数会話ビデオ生成を探索しているが、多人数データ収集のコストが高いことと、一貫性のある対話性を持つ複数のアイデンティティを駆動することの難しさのために、しばしば課題に直面している。
これらの課題に対処するために,拡張可能なマルチストリーム処理アーキテクチャを備えた多人数生成フレームワークであるAnyTalkerを提案する。
具体的には、Diffusion Transformerのアテンションブロックを、IDとオーディオのペアを反復的に処理し、ドライビング可能なIDの任意のスケーリングを可能にする、新しいID対応アテンションメカニズムで拡張する。
さらに、多人数生成モデルのトレーニングには、膨大な多人数データが必要である。
提案するトレーニングパイプラインは,複数対人会話パターンを学習し,実際の複数対人クリップでのみ対話性を洗練するために,単対人ビデオにのみ依存する。
さらに、生成した多人数ビデオの自然性と対話性を評価するために、ターゲットとなるメトリックとデータセットをコントリビュートする。
大規模な実験では、AnyTalkerが顕著なリップ同期、視覚的品質、自然な相互作用を実現し、データコストとアイデンティティのスケーラビリティのバランスが良好であることを実証している。
関連論文リスト
- TalkCuts: A Large-Scale Dataset for Multi-Shot Human Speech Video Generation [76.48551690189406]
本研究では,マルチショット音声ビデオ生成を支援する大規模データセットであるTalkCutsを提案する。
TalkCutsは、クローズアップ、ハーフボディ、フルボディビューを含む様々なカメラショットを備えた、500時間以上の高品質な人間の音声ビデオクリップを提供する。
このデータセットには、詳細なテキスト記述、2Dキーポイント、3D SMPL-Xモーションアノテーションが含まれ、10k以上のアイデンティティをカバーし、マルチモーダル学習と評価を可能にする。
論文 参考訳(メタデータ) (2025-10-08T17:16:09Z) - BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration [56.98981194478512]
本稿では,幅広いテーマ・ツー・ビデオシナリオを扱う統一フレームワークを提案する。
MLLM-DiTフレームワークは,事前訓練されたマルチモーダルな大規模言語モデルで,基底エンティティに対して深い相互モーダル推論を行う。
OpenS2Vベンチマークの実験により、本手法は、生成ビデオにおける主観的整合性、自然性、テキスト関連性において優れた性能を実現することを示した。
論文 参考訳(メタデータ) (2025-10-01T02:41:11Z) - Multi-human Interactive Talking Dataset [20.920129008402718]
マルチヒューマン音声ビデオ生成に特化して設計された大規模データセットであるMITを紹介する。
得られたデータセットは、12時間の高解像度映像で構成され、それぞれ2〜4人の話者を特徴とする。
マルチスピーカーシナリオにおける自然な会話のダイナミクスを捉え、インタラクティブな視覚行動を研究するための豊富なリソースを提供する。
論文 参考訳(メタデータ) (2025-08-05T03:54:18Z) - Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation [34.15566431966277]
本稿では,マルチパーソン会話ビデオ生成という新しい課題を提案する。
マルチパーソン世代における課題に対処するための新しいフレームワークであるMultiTalkを導入する。
論文 参考訳(メタデータ) (2025-05-28T17:57:06Z) - Multi-identity Human Image Animation with Structural Video Diffusion [73.38728096088732]
emph Structure Video Diffusionは、現実的なマルチヒューマンビデオを生成するための新しいフレームワークである。
当社のアプローチでは、個人間で一貫した外観を維持するために、アイデンティティ固有の埋め込みを導入している。
さまざまなマルチヒューマンとオブジェクトのインタラクションシナリオを特徴とする25Kの新しいビデオで、既存のヒューマンビデオデータセットを拡張します。
論文 参考訳(メタデータ) (2025-04-05T10:03:49Z) - Towards Open Domain Text-Driven Synthesis of Multi-Person Motions [36.737740727883924]
我々は、大規模な画像とビデオのデータセットからポーズ情報を推定することで、人間のポーズと動きのデータセットをキュレートする。
本手法は,多種多様なテキストプロンプトから多目的運動列を多種多様な多様性と忠実度で生成する最初の方法である。
論文 参考訳(メタデータ) (2024-05-28T18:00:06Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - Audio-Visual Fusion Layers for Event Type Aware Video Recognition [86.22811405685681]
マルチタスク学習方式において,個別のイベント固有のレイヤによるマルチセンサ統合問題に対処する新しいモデルを提案する。
我々のネットワークは単一のラベルで表現されているが、与えられたビデオを表現するために、さらに真のマルチラベルを出力できる。
論文 参考訳(メタデータ) (2022-02-12T02:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。