論文の概要: Cut2Next: Generating Next Shot via In-Context Tuning
- arxiv url: http://arxiv.org/abs/2508.08244v1
- Date: Mon, 11 Aug 2025 17:56:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.25418
- Title: Cut2Next: Generating Next Shot via In-Context Tuning
- Title(参考訳): Cut2Next: インコンテキストチューニングによる次のショットの生成
- Authors: Jingwen He, Hongbo Liu, Jiajun Li, Ziqi Huang, Yu Qiao, Wanli Ouyang, Ziwei Liu,
- Abstract要約: マルチショット生成には、目的があり、映画のような遷移と厳密な撮影連続性が必要である。
現在の手法はしばしば基本的な視覚的一貫性を優先し、重要な編集パターンを無視している。
我々は、プロの編集パターンを批判的に合成する、その後の高品質なショットであるNext Shot Generation (NSG)を紹介する。
- 参考スコア(独自算出の注目度): 93.14744132897428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective multi-shot generation demands purposeful, film-like transitions and strict cinematic continuity. Current methods, however, often prioritize basic visual consistency, neglecting crucial editing patterns (e.g., shot/reverse shot, cutaways) that drive narrative flow for compelling storytelling. This yields outputs that may be visually coherent but lack narrative sophistication and true cinematic integrity. To bridge this, we introduce Next Shot Generation (NSG): synthesizing a subsequent, high-quality shot that critically conforms to professional editing patterns while upholding rigorous cinematic continuity. Our framework, Cut2Next, leverages a Diffusion Transformer (DiT). It employs in-context tuning guided by a novel Hierarchical Multi-Prompting strategy. This strategy uses Relational Prompts to define overall context and inter-shot editing styles. Individual Prompts then specify per-shot content and cinematographic attributes. Together, these guide Cut2Next to generate cinematically appropriate next shots. Architectural innovations, Context-Aware Condition Injection (CACI) and Hierarchical Attention Mask (HAM), further integrate these diverse signals without introducing new parameters. We construct RawCuts (large-scale) and CuratedCuts (refined) datasets, both with hierarchical prompts, and introduce CutBench for evaluation. Experiments show Cut2Next excels in visual consistency and text fidelity. Crucially, user studies reveal a strong preference for Cut2Next, particularly for its adherence to intended editing patterns and overall cinematic continuity, validating its ability to generate high-quality, narratively expressive, and cinematically coherent subsequent shots.
- Abstract(参考訳): 効果的なマルチショット生成には、目的があり、フィルムのような遷移と厳密な撮影連続性が必要である。
しかし、現在の手法は、しばしば基本的な視覚的一貫性を優先し、魅力的なストーリーテリングのために物語の流れを駆動する重要な編集パターン(例えば、ショット/リバースショット、カットアウト)を無視している。
これは視覚的に一貫性があるが、物語の洗練と真の映画的整合性に欠けるアウトプットをもたらす。
これを埋めるために、我々は、厳密な撮影連続性を維持しながらプロの編集パターンに批判的に適合する、その後の高品質なショットを合成する、Next Shot Generation (NSG)を紹介する。
当社のフレームワークである Cut2Next は Diffusion Transformer (DiT) を利用している。
それは、新しい階層的マルチプロンピング戦略によって導かれるコンテキスト内チューニングを採用している。
この戦略はRelational Promptsを使用して、全体的なコンテキストとショット間の編集スタイルを定義する。
個々のプロンプトは、ショットごとのコンテンツと撮影属性を指定する。
これらのガイドと共に、Cut2Nextは撮影に適した次のショットを生成する。
アーキテクチャの革新、CACI(Context-Aware Condition Injection)とHAM(Hierarchical Attention Mask)は、新しいパラメータを導入することなく、これらの多様なシグナルを統合する。
我々は、階層的なプロンプトを持つRawCuts(大規模)とCuratedCuts(精製)のデータセットを構築し、評価のためにCutBenchを導入する。
実験では、Cut2Nextは視覚的一貫性とテキストの忠実さに優れていた。
特に、意図した編集パターンと全体的な撮影連続性に固執し、高品質で、物語的に表現的で、撮影的に一貫性のある後続のショットを生成する能力を検証するために、ユーザー研究はCut2Nextを強く好んでいる。
関連論文リスト
- CineVerse: Consistent Keyframe Synthesis for Cinematic Scene Composition [23.795982778641573]
CineVerseは、シーン構成のタスクのための新しいフレームワークである。
従来のマルチショット生成と同様に、我々のタスクはフレーム間の一貫性と連続性の必要性を強調する。
我々の課題は、複数のキャラクター、複雑な相互作用、視覚的映像効果など、映画制作に固有の課題に対処することにも焦点を当てている。
論文 参考訳(メタデータ) (2025-04-28T15:28:14Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [70.61101071902596]
現在のビデオ生成モデルは短いクリップで優れているが、解離した視覚力学と破折したストーリーラインのため、凝集性のある複数ショットの物語を生成できない。
一つの文から複数ショットのビデオ合成を自動化する,ステップバイステップのフレームワークであるVideoGen-of-Thought (VGoT)を紹介した。
VGoTは、ショット内の顔の一貫性が20.4%、スタイルの一貫性が17.4%向上するマルチショットビデオを生成する。
論文 参考訳(メタデータ) (2025-03-19T11:59:14Z) - Long Context Tuning for Video Generation [63.060794860098795]
Long Context Tuning (LCT) は、訓練済みのシングルショットビデオ拡散モデルのコンテキストウィンドウを拡張する訓練パラダイムである。
本手法は、シーン内のすべてのショットを包含するために、個々のショットからフルアテンションメカニズムを拡張する。
実験では、コヒーレントなマルチショットシーンを実証し、合成生成やインタラクティブショット拡張など、新たな能力を示す。
論文 参考訳(メタデータ) (2025-03-13T17:40:07Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [70.61101071902596]
現在のビデオ生成モデルは短いクリップで優れているが、解離した視覚力学と破折したストーリーラインのため、凝集性のある複数ショットの物語を生成できない。
一つの文から複数ショットのビデオ合成を自動化する,ステップバイステップのフレームワークであるVideoGen-of-Thought (VGoT)を紹介した。
VGoTは、ショット内の顔の一貫性が20.4%、スタイルの一貫性が17.4%向上するマルチショットビデオを生成する。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。