論文の概要: CineTrans: Learning to Generate Videos with Cinematic Transitions via Masked Diffusion Models
- arxiv url: http://arxiv.org/abs/2508.11484v1
- Date: Fri, 15 Aug 2025 13:58:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:24.035869
- Title: CineTrans: Learning to Generate Videos with Cinematic Transitions via Masked Diffusion Models
- Title(参考訳): CineTrans: 被写体拡散モデルによる映像生成学習
- Authors: Xiaoxue Wu, Bingjie Gao, Yu Qiao, Yaohui Wang, Xinyuan Chen,
- Abstract要約: 我々は,コヒーレントなマルチショットビデオを生成するためのフレームワークであるCineTransを紹介した。
CineTransは、フィルム編集スタイルに固執しながら、不安定な遷移やナイーブな結合を避けながら、シネマティックなマルチショットシーケンスを生成する。
- 参考スコア(独自算出の注目度): 28.224969852134606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant advances in video synthesis, research into multi-shot video generation remains in its infancy. Even with scaled-up models and massive datasets, the shot transition capabilities remain rudimentary and unstable, largely confining generated videos to single-shot sequences. In this work, we introduce CineTrans, a novel framework for generating coherent multi-shot videos with cinematic, film-style transitions. To facilitate insights into the film editing style, we construct a multi-shot video-text dataset Cine250K with detailed shot annotations. Furthermore, our analysis of existing video diffusion models uncovers a correspondence between attention maps in the diffusion model and shot boundaries, which we leverage to design a mask-based control mechanism that enables transitions at arbitrary positions and transfers effectively in a training-free setting. After fine-tuning on our dataset with the mask mechanism, CineTrans produces cinematic multi-shot sequences while adhering to the film editing style, avoiding unstable transitions or naive concatenations. Finally, we propose specialized evaluation metrics for transition control, temporal consistency and overall quality, and demonstrate through extensive experiments that CineTrans significantly outperforms existing baselines across all criteria.
- Abstract(参考訳): ビデオ合成の進歩にもかかわらず、マルチショットビデオ生成の研究はまだ初期段階にある。
スケールアップされたモデルや大規模なデータセットであっても、ショット遷移機能は初期的で不安定であり、生成したビデオを単一ショットシーケンスに大半を詰め込む。
本研究では,コヒーレントなマルチショット映像を生成するための新しいフレームワークであるCineTransを紹介する。
映像編集スタイルの理解を深めるため,詳細なアノテーションを付加したマルチショットビデオテキストデータセットCine250Kを構築した。
さらに,既存の映像拡散モデルの解析により,拡散モデルにおける注目マップとショット境界との対応性を明らかにするとともに,任意の位置での遷移とトレーニング不要環境での転送を効果的に行うマスクベース制御機構の設計に活用する。
マスク機構でデータセットを微調整した後、CineTransは、フィルム編集スタイルに固執しながら、不安定な遷移やナイーブな結合を避けながら、シネマティックなマルチショットシーケンスを生成する。
最後に、遷移制御、時間的整合性、全体的な品質に関する専門的な評価指標を提案し、CineTransがすべての基準において既存のベースラインを大幅に上回ることを示す広範な実験を行った。
関連論文リスト
- Moaw: Unleashing Motion Awareness for Video Diffusion Models [71.34328578845721]
Moawは動画拡散モデルのための動き認識を解放するフレームワークである。
我々は、映像から映像へのモダリティを、映像から映像への追跡へとシフトさせ、運動知覚のための拡散モデルを訓練する。
次に、最強の動作情報をエンコードする特徴を識別する動きラベル付きデータセットを構築し、それらを構造的に同一の映像生成モデルに注入する。
論文 参考訳(メタデータ) (2026-01-19T06:45:46Z) - STAGE: Storyboard-Anchored Generation for Cinematic Multi-shot Narrative [55.05324155854762]
本稿では,STAGEに基づく映像生成タスクを再構成するStoryboard-Anchored GEnerationワークフローを提案する。
そこで本研究では,スペーサーの代わりに,各ショットの先頭フレーム対からなる構造的ストーリーボードを推定するSTEP2を提案する。
ConStoryBoardの大規模データセットには、ストーリーの進行、映画的属性、人間の嗜好など、高品質な映像クリップが含まれています。
論文 参考訳(メタデータ) (2025-12-13T15:57:29Z) - CineLOG: A Training Free Approach for Cinematic Long Video Generation [19.97092710696699]
5000の高品質なバランスの取れたビデオクリップのデータセットであるCineLOGを紹介した。
各エントリには、標準的な映画分類に基づく詳細なシーン記述、明示的なカメラ指示が注釈付けされている。
より成熟した技術で、複雑なテキストからジャンルビデオ(T2V)タスク生成を4つのより簡単なステージに分割し、このデータセットを作成するように設計された新しいパイプラインを提示する。
論文 参考訳(メタデータ) (2025-12-13T06:44:09Z) - FilmWeaver: Weaving Consistent Multi-Shot Videos with Cache-Guided Autoregressive Diffusion [46.67733869872552]
textbfFilmWeaverは任意の長さで一貫したマルチショットビデオを生成するように設計されたフレームワークである。
私たちの重要な洞察は、問題をショット間の一貫性とショット内のコヒーレンスに分離することです。
本手法は, 整合性と美的品質の両面において, 既存の手法を超越した手法である。
論文 参考訳(メタデータ) (2025-12-12T04:34:53Z) - ShotDirector: Directorially Controllable Multi-Shot Video Generation with Cinematographic Transitions [46.3918771233715]
ShotDirectorは、パラメータレベルのカメラ制御と階層的な編集パターン認識プロンプトを統合する効率的なフレームワークである。
本フレームワークは,パラメータレベルの条件と高レベルの意味指導を効果的に組み合わせ,フィルムのような制御可能なショット遷移を実現する。
論文 参考訳(メタデータ) (2025-12-11T05:05:07Z) - Zero-Shot Video Translation and Editing with Frame Spatial-Temporal Correspondence [81.82643953694485]
フレーム内対応とフレーム間対応を統合し,より堅牢な時空間制約を定式化するFRESCOを提案する。
提案手法は注意誘導を超越して特徴を明示的に最適化し,入力ビデオとの空間的整合性を実現する。
動画翻訳とテキスト誘導ビデオ編集の2つのゼロショットタスクに対してFRESCO適応を検証する。
論文 参考訳(メタデータ) (2025-12-03T15:51:11Z) - Versatile Transition Generation with Image-to-Video Diffusion [89.67070538399457]
本稿では,スムーズで高忠実でセマンティックにコヒーレントな動画遷移を生成できるVersatile Transitionビデオ生成フレームワークを提案する。
我々は,VTGが4つのタスクすべてにおいて,優れた遷移性能を実現することを示す。
論文 参考訳(メタデータ) (2025-08-03T10:03:56Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [70.61101071902596]
現在のビデオ生成モデルは短いクリップで優れているが、解離した視覚力学と破折したストーリーラインのため、凝集性のある複数ショットの物語を生成できない。
一つの文から複数ショットのビデオ合成を自動化する,ステップバイステップのフレームワークであるVideoGen-of-Thought (VGoT)を紹介した。
VGoTは、ショット内の顔の一貫性が20.4%、スタイルの一貫性が17.4%向上するマルチショットビデオを生成する。
論文 参考訳(メタデータ) (2025-03-19T11:59:14Z) - Long Context Tuning for Video Generation [63.060794860098795]
Long Context Tuning (LCT) は、訓練済みのシングルショットビデオ拡散モデルのコンテキストウィンドウを拡張する訓練パラダイムである。
本手法は、シーン内のすべてのショットを包含するために、個々のショットからフルアテンションメカニズムを拡張する。
実験では、コヒーレントなマルチショットシーンを実証し、合成生成やインタラクティブショット拡張など、新たな能力を示す。
論文 参考訳(メタデータ) (2025-03-13T17:40:07Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [70.61101071902596]
現在のビデオ生成モデルは短いクリップで優れているが、解離した視覚力学と破折したストーリーラインのため、凝集性のある複数ショットの物語を生成できない。
一つの文から複数ショットのビデオ合成を自動化する,ステップバイステップのフレームワークであるVideoGen-of-Thought (VGoT)を紹介した。
VGoTは、ショット内の顔の一貫性が20.4%、スタイルの一貫性が17.4%向上するマルチショットビデオを生成する。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - Anchored Diffusion for Video Face Reenactment [17.343307538702238]
比較的長くシームレスなビデオを合成するための新しい手法であるAnchored Diffusionを紹介する。
我々は、ランダムな非一様時間間隔でビデオシーケンスでモデルを訓練し、外部ガイダンスを介して時間情報を組み込む。
推論の際には、トランスフォーマーアーキテクチャを利用して拡散プロセスを修正し、共通のフレームに固定された一様でないシーケンスのバッチを生成する。
論文 参考訳(メタデータ) (2024-07-21T13:14:17Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。