論文の概要: CineTrans: Learning to Generate Videos with Cinematic Transitions via Masked Diffusion Models
- arxiv url: http://arxiv.org/abs/2508.11484v1
- Date: Fri, 15 Aug 2025 13:58:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:24.035869
- Title: CineTrans: Learning to Generate Videos with Cinematic Transitions via Masked Diffusion Models
- Title(参考訳): CineTrans: 被写体拡散モデルによる映像生成学習
- Authors: Xiaoxue Wu, Bingjie Gao, Yu Qiao, Yaohui Wang, Xinyuan Chen,
- Abstract要約: 我々は,コヒーレントなマルチショットビデオを生成するためのフレームワークであるCineTransを紹介した。
CineTransは、フィルム編集スタイルに固執しながら、不安定な遷移やナイーブな結合を避けながら、シネマティックなマルチショットシーケンスを生成する。
- 参考スコア(独自算出の注目度): 28.224969852134606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant advances in video synthesis, research into multi-shot video generation remains in its infancy. Even with scaled-up models and massive datasets, the shot transition capabilities remain rudimentary and unstable, largely confining generated videos to single-shot sequences. In this work, we introduce CineTrans, a novel framework for generating coherent multi-shot videos with cinematic, film-style transitions. To facilitate insights into the film editing style, we construct a multi-shot video-text dataset Cine250K with detailed shot annotations. Furthermore, our analysis of existing video diffusion models uncovers a correspondence between attention maps in the diffusion model and shot boundaries, which we leverage to design a mask-based control mechanism that enables transitions at arbitrary positions and transfers effectively in a training-free setting. After fine-tuning on our dataset with the mask mechanism, CineTrans produces cinematic multi-shot sequences while adhering to the film editing style, avoiding unstable transitions or naive concatenations. Finally, we propose specialized evaluation metrics for transition control, temporal consistency and overall quality, and demonstrate through extensive experiments that CineTrans significantly outperforms existing baselines across all criteria.
- Abstract(参考訳): ビデオ合成の進歩にもかかわらず、マルチショットビデオ生成の研究はまだ初期段階にある。
スケールアップされたモデルや大規模なデータセットであっても、ショット遷移機能は初期的で不安定であり、生成したビデオを単一ショットシーケンスに大半を詰め込む。
本研究では,コヒーレントなマルチショット映像を生成するための新しいフレームワークであるCineTransを紹介する。
映像編集スタイルの理解を深めるため,詳細なアノテーションを付加したマルチショットビデオテキストデータセットCine250Kを構築した。
さらに,既存の映像拡散モデルの解析により,拡散モデルにおける注目マップとショット境界との対応性を明らかにするとともに,任意の位置での遷移とトレーニング不要環境での転送を効果的に行うマスクベース制御機構の設計に活用する。
マスク機構でデータセットを微調整した後、CineTransは、フィルム編集スタイルに固執しながら、不安定な遷移やナイーブな結合を避けながら、シネマティックなマルチショットシーケンスを生成する。
最後に、遷移制御、時間的整合性、全体的な品質に関する専門的な評価指標を提案し、CineTransがすべての基準において既存のベースラインを大幅に上回ることを示す広範な実験を行った。
関連論文リスト
- Versatile Transition Generation with Image-to-Video Diffusion [89.67070538399457]
本稿では,スムーズで高忠実でセマンティックにコヒーレントな動画遷移を生成できるVersatile Transitionビデオ生成フレームワークを提案する。
我々は,VTGが4つのタスクすべてにおいて,優れた遷移性能を実現することを示す。
論文 参考訳(メタデータ) (2025-08-03T10:03:56Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [70.61101071902596]
現在のビデオ生成モデルは短いクリップで優れているが、解離した視覚力学と破折したストーリーラインのため、凝集性のある複数ショットの物語を生成できない。
一つの文から複数ショットのビデオ合成を自動化する,ステップバイステップのフレームワークであるVideoGen-of-Thought (VGoT)を紹介した。
VGoTは、ショット内の顔の一貫性が20.4%、スタイルの一貫性が17.4%向上するマルチショットビデオを生成する。
論文 参考訳(メタデータ) (2025-03-19T11:59:14Z) - Long Context Tuning for Video Generation [63.060794860098795]
Long Context Tuning (LCT) は、訓練済みのシングルショットビデオ拡散モデルのコンテキストウィンドウを拡張する訓練パラダイムである。
本手法は、シーン内のすべてのショットを包含するために、個々のショットからフルアテンションメカニズムを拡張する。
実験では、コヒーレントなマルチショットシーンを実証し、合成生成やインタラクティブショット拡張など、新たな能力を示す。
論文 参考訳(メタデータ) (2025-03-13T17:40:07Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [70.61101071902596]
現在のビデオ生成モデルは短いクリップで優れているが、解離した視覚力学と破折したストーリーラインのため、凝集性のある複数ショットの物語を生成できない。
一つの文から複数ショットのビデオ合成を自動化する,ステップバイステップのフレームワークであるVideoGen-of-Thought (VGoT)を紹介した。
VGoTは、ショット内の顔の一貫性が20.4%、スタイルの一貫性が17.4%向上するマルチショットビデオを生成する。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - Anchored Diffusion for Video Face Reenactment [17.343307538702238]
比較的長くシームレスなビデオを合成するための新しい手法であるAnchored Diffusionを紹介する。
我々は、ランダムな非一様時間間隔でビデオシーケンスでモデルを訓練し、外部ガイダンスを介して時間情報を組み込む。
推論の際には、トランスフォーマーアーキテクチャを利用して拡散プロセスを修正し、共通のフレームに固定された一様でないシーケンスのバッチを生成する。
論文 参考訳(メタデータ) (2024-07-21T13:14:17Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。