論文の概要: FilmWeaver: Weaving Consistent Multi-Shot Videos with Cache-Guided Autoregressive Diffusion
- arxiv url: http://arxiv.org/abs/2512.11274v1
- Date: Fri, 12 Dec 2025 04:34:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.656895
- Title: FilmWeaver: Weaving Consistent Multi-Shot Videos with Cache-Guided Autoregressive Diffusion
- Title(参考訳): FilmWeaver:キャッシュ型自己回帰拡散による一貫性のあるマルチショットビデオを織る
- Authors: Xiangyang Luo, Qingyu Li, Xiaokun Liu, Wenyu Qin, Miao Yang, Meng Wang, Pengfei Wan, Di Zhang, Kun Gai, Shao-Lun Huang,
- Abstract要約: textbfFilmWeaverは任意の長さで一貫したマルチショットビデオを生成するように設計されたフレームワークである。
私たちの重要な洞察は、問題をショット間の一貫性とショット内のコヒーレンスに分離することです。
本手法は, 整合性と美的品質の両面において, 既存の手法を超越した手法である。
- 参考スコア(独自算出の注目度): 46.67733869872552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current video generation models perform well at single-shot synthesis but struggle with multi-shot videos, facing critical challenges in maintaining character and background consistency across shots and flexibly generating videos of arbitrary length and shot count. To address these limitations, we introduce \textbf{FilmWeaver}, a novel framework designed to generate consistent, multi-shot videos of arbitrary length. First, it employs an autoregressive diffusion paradigm to achieve arbitrary-length video generation. To address the challenge of consistency, our key insight is to decouple the problem into inter-shot consistency and intra-shot coherence. We achieve this through a dual-level cache mechanism: a shot memory caches keyframes from preceding shots to maintain character and scene identity, while a temporal memory retains a history of frames from the current shot to ensure smooth, continuous motion. The proposed framework allows for flexible, multi-round user interaction to create multi-shot videos. Furthermore, due to this decoupled design, our method demonstrates high versatility by supporting downstream tasks such as multi-concept injection and video extension. To facilitate the training of our consistency-aware method, we also developed a comprehensive pipeline to construct a high-quality multi-shot video dataset. Extensive experimental results demonstrate that our method surpasses existing approaches on metrics for both consistency and aesthetic quality, opening up new possibilities for creating more consistent, controllable, and narrative-driven video content. Project Page: https://filmweaver.github.io
- Abstract(参考訳): 現在のビデオ生成モデルは、シングルショット合成ではうまく機能するが、マルチショットビデオに苦戦し、ショット間のキャラクタと背景の一貫性を維持し、任意の長さと撮影回数のビデオを柔軟に生成する上で重要な課題に直面している。
これらの制限に対処するために,任意の長さで一貫したマルチショットビデオを生成するように設計された,新しいフレームワークである \textbf{FilmWeaver} を導入する。
まず、任意の長さのビデオ生成を実現するために自己回帰拡散パラダイムを用いる。
一貫性の課題に対処するために、我々の重要な洞察は、問題をショット間の一貫性とショット内コヒーレンスに分離することである。
ショットメモリは、前回のショットからキーフレームをキャッシュし、キャラクタとシーンの同一性を維持する一方、時間メモリは現在のショットからフレームの履歴を保持し、スムーズで連続的な動きを保証する。
提案したフレームワークは、フレキシブルでマルチラウンドなユーザインタラクションにより、マルチショットビデオを作成することができる。
さらに, この分離設計により, マルチコンセプトインジェクションやビデオ拡張といった下流タスクをサポートすることで, 高い汎用性を示す。
一貫性を意識した手法のトレーニングを容易にするため,高品質なマルチショットビデオデータセットを構築するための包括的パイプラインも開発した。
大規模な実験結果から,本手法は,一貫性と美的品質の両面で既存の手法を超越し,より一貫性のある,コントロール可能な,物語駆動型ビデオコンテンツを作成する新たな可能性を示した。
Project Page: https://filmweaver.github.io
関連論文リスト
- Zero-Shot Video Translation and Editing with Frame Spatial-Temporal Correspondence [81.82643953694485]
フレーム内対応とフレーム間対応を統合し,より堅牢な時空間制約を定式化するFRESCOを提案する。
提案手法は注意誘導を超越して特徴を明示的に最適化し,入力ビデオとの空間的整合性を実現する。
動画翻訳とテキスト誘導ビデオ編集の2つのゼロショットタスクに対してFRESCO適応を検証する。
論文 参考訳(メタデータ) (2025-12-03T15:51:11Z) - MultiShotMaster: A Controllable Multi-Shot Video Generation Framework [67.38203939500157]
現在の生成技術はシングルショットクリップで優れているが、物語的なマルチショットビデオを作成するのに苦労している。
高度に制御可能なマルチショットビデオ生成のためのフレームワークであるMultiShotMasterを提案する。
論文 参考訳(メタデータ) (2025-12-02T18:59:48Z) - EchoShot: Multi-Shot Portrait Video Generation [37.77879735014084]
EchoShotは、基礎的なビデオ拡散モデルに基づいて構築されたポートレートカスタマイズのためのネイティブなマルチショットフレームワークである。
マルチショットシナリオにおけるモデルトレーニングを容易にするため,大規模かつ高忠実な人間中心のビデオデータセットであるPortraitGalaを構築した。
適用性をさらに向上するため、EchoShotを拡張して、参照画像に基づくパーソナライズされたマルチショット生成と、無限ショットカウントによる長いビデオ合成を行う。
論文 参考訳(メタデータ) (2025-06-16T11:00:16Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [76.3175166538482]
VideoGen-of-Thought(VGoT)は、単一の文から複数ショットのビデオ合成を自動化するステップバイステップのフレームワークである。
VGoTは、ナラティブな断片化、視覚的不整合、トランジションアーティファクトの3つの課題に対処する。
トレーニング不要のパイプラインで組み合わせられたVGoTは、ショット内面の一貫性が20.4%、スタイルの一貫性が17.4%向上した。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - VidToMe: Video Token Merging for Zero-Shot Video Editing [100.79999871424931]
本稿では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める新しい手法を提案する。
本手法は時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を削減する。
論文 参考訳(メタデータ) (2023-12-17T09:05:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。