論文の概要: EchoShot: Multi-Shot Portrait Video Generation
- arxiv url: http://arxiv.org/abs/2506.15838v1
- Date: Mon, 16 Jun 2025 11:00:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.825673
- Title: EchoShot: Multi-Shot Portrait Video Generation
- Title(参考訳): EchoShot:マルチショット・ポートレート・ビデオ・ジェネレーション
- Authors: Jiahao Wang, Hualian Sheng, Sijia Cai, Weizhan Zhang, Caixia Yan, Yachuang Feng, Bing Deng, Jieping Ye,
- Abstract要約: EchoShotは、基礎的なビデオ拡散モデルに基づいて構築されたポートレートカスタマイズのためのネイティブなマルチショットフレームワークである。
マルチショットシナリオにおけるモデルトレーニングを容易にするため,大規模かつ高忠実な人間中心のビデオデータセットであるPortraitGalaを構築した。
適用性をさらに向上するため、EchoShotを拡張して、参照画像に基づくパーソナライズされたマルチショット生成と、無限ショットカウントによる長いビデオ合成を行う。
- 参考スコア(独自算出の注目度): 37.77879735014084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video diffusion models substantially boost the productivity of artistic workflows with high-quality portrait video generative capacity. However, prevailing pipelines are primarily constrained to single-shot creation, while real-world applications urge for multiple shots with identity consistency and flexible content controllability. In this work, we propose EchoShot, a native and scalable multi-shot framework for portrait customization built upon a foundation video diffusion model. To start with, we propose shot-aware position embedding mechanisms within video diffusion transformer architecture to model inter-shot variations and establish intricate correspondence between multi-shot visual content and their textual descriptions. This simple yet effective design enables direct training on multi-shot video data without introducing additional computational overhead. To facilitate model training within multi-shot scenario, we construct PortraitGala, a large-scale and high-fidelity human-centric video dataset featuring cross-shot identity consistency and fine-grained captions such as facial attributes, outfits, and dynamic motions. To further enhance applicability, we extend EchoShot to perform reference image-based personalized multi-shot generation and long video synthesis with infinite shot counts. Extensive evaluations demonstrate that EchoShot achieves superior identity consistency as well as attribute-level controllability in multi-shot portrait video generation. Notably, the proposed framework demonstrates potential as a foundational paradigm for general multi-shot video modeling.
- Abstract(参考訳): ビデオ拡散モデルは、高品質のポートレートビデオ生成能力を持つ芸術的ワークフローの生産性を大幅に向上させる。
しかし、一般的なパイプラインは、主にシングルショット作成に制約されるが、現実のアプリケーションは、アイデンティティの一貫性と柔軟なコンテンツ制御性を備えた複数のショットを推奨する。
本研究では,基礎的ビデオ拡散モデルに基づくポートレートカスタマイズのためのネイティブかつスケーラブルなマルチショットフレームワークであるEchoShotを提案する。
まず,映像拡散トランスフォーマアーキテクチャにおけるショット認識位置埋め込み機構を提案する。
このシンプルで効果的な設計は、追加の計算オーバーヘッドを導入することなく、マルチショットビデオデータの直接トレーニングを可能にする。
マルチショットシナリオ内でのモデルトレーニングを容易にするために,クロスショットアイデンティティの整合性と,顔属性や衣装,ダイナミックモーションなどの微粒なキャプションを備えた大規模かつ高忠実な人中心ビデオデータセットであるPortraitGalaを構築した。
適用性をさらに向上するため、EchoShotを拡張して、参照画像に基づくパーソナライズされたマルチショット生成と、無限ショットカウントによる長いビデオ合成を行う。
大規模な評価では、マルチショットのポートレートビデオ生成において、EchoShotは優れたアイデンティティ一貫性と属性レベルの制御性を達成している。
特に,提案フレームワークは,一般的なマルチショットビデオモデリングの基礎パラダイムとしての可能性を示している。
関連論文リスト
- MAGREF: Masked Guidance for Any-Reference Video Generation [33.35245169242822]
MAGREFは、任意の参照ビデオ生成のための統一されたフレームワークである。
本研究では,一つのモデルで様々な対象推定を柔軟に処理できる領域認識型動的マスキング機構を提案する。
我々のモデルは、単目的訓練から複雑な多目的シナリオまで、最先端のビデオ生成品質を提供する。
論文 参考訳(メタデータ) (2025-05-29T17:58:15Z) - Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z) - Long Context Tuning for Video Generation [63.060794860098795]
Long Context Tuning (LCT) は、訓練済みのシングルショットビデオ拡散モデルのコンテキストウィンドウを拡張する訓練パラダイムである。
本手法は、シーン内のすべてのショットを包含するために、個々のショットからフルアテンションメカニズムを拡張する。
実験では、コヒーレントなマルチショットシーンを実証し、合成生成やインタラクティブショット拡張など、新たな能力を示す。
論文 参考訳(メタデータ) (2025-03-13T17:40:07Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [70.61101071902596]
現在のビデオ生成モデルは短いクリップで優れているが、解離した視覚力学と破折したストーリーラインのため、凝集性のある複数ショットの物語を生成できない。
一つの文から複数ショットのビデオ合成を自動化する,ステップバイステップのフレームワークであるVideoGen-of-Thought (VGoT)を紹介した。
VGoTは、ショット内の顔の一貫性が20.4%、スタイルの一貫性が17.4%向上するマルチショットビデオを生成する。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - TweedieMix: Improving Multi-Concept Fusion for Diffusion-based Image/Video Generation [67.97044071594257]
TweedieMixは、カスタマイズされた拡散モデルを構成する新しい方法である。
我々のフレームワークは、画像とビデオの拡散モデルに力ずくで拡張できる。
論文 参考訳(メタデータ) (2024-10-08T01:06:01Z) - Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - You Only Train Once: Multi-Identity Free-Viewpoint Neural Human
Rendering from Monocular Videos [10.795522875068073]
You Only Train Once (YOTO) は動的なヒューマンジェネレーションフレームワークであり、異なる動きを持つ異なる人間のアイデンティティを自由視点でレンダリングする。
本稿では,多元性自由視点レンダリングのためのフレームワークの能力を拡張するために,学習可能な識別符号のセットを提案する。
YOTOは、すべての評価指標で最先端のパフォーマンスを示しながら、トレーニングや推論効率、レンダリング品質に大きなメリットを示している。
論文 参考訳(メタデータ) (2023-03-10T10:23:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。