論文の概要: CineLOG: A Training Free Approach for Cinematic Long Video Generation
- arxiv url: http://arxiv.org/abs/2512.12209v1
- Date: Sat, 13 Dec 2025 06:44:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.163572
- Title: CineLOG: A Training Free Approach for Cinematic Long Video Generation
- Title(参考訳): CineLOG:Cinetic Long Video Generationのトレーニングフリーアプローチ
- Authors: Zahra Dehghanian, Morteza Abolghasemi, Hamid Beigy, Hamid R. Rabiee,
- Abstract要約: 5000の高品質なバランスの取れたビデオクリップのデータセットであるCineLOGを紹介した。
各エントリには、標準的な映画分類に基づく詳細なシーン記述、明示的なカメラ指示が注釈付けされている。
より成熟した技術で、複雑なテキストからジャンルビデオ(T2V)タスク生成を4つのより簡単なステージに分割し、このデータセットを作成するように設計された新しいパイプラインを提示する。
- 参考スコア(独自算出の注目度): 19.97092710696699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controllable video synthesis is a central challenge in computer vision, yet current models struggle with fine grained control beyond textual prompts, particularly for cinematic attributes like camera trajectory and genre. Existing datasets often suffer from severe data imbalance, noisy labels, or a significant simulation to real gap. To address this, we introduce CineLOG, a new dataset of 5,000 high quality, balanced, and uncut video clips. Each entry is annotated with a detailed scene description, explicit camera instructions based on a standard cinematic taxonomy, and genre label, ensuring balanced coverage across 17 diverse camera movements and 15 film genres. We also present our novel pipeline designed to create this dataset, which decouples the complex text to video (T2V) generation task into four easier stages with more mature technology. To enable coherent, multi shot sequences, we introduce a novel Trajectory Guided Transition Module that generates smooth spatio-temporal interpolation. Extensive human evaluations show that our pipeline significantly outperforms SOTA end to end T2V models in adhering to specific camera and screenplay instructions, while maintaining professional visual quality. All codes and data are available at https://cine-log.pages.dev.
- Abstract(参考訳): 制御可能なビデオ合成はコンピュータビジョンにおいて中心的な課題であるが、現在のモデルは、特にカメラの軌跡やジャンルのような映画的特性において、テキストのプロンプトを超えたきめ細かい制御に苦しむ。
既存のデータセットは、しばしば深刻なデータ不均衡、ノイズラベル、あるいは実際のギャップに対する重要なシミュレーションに悩まされる。
この問題に対処するために、5000の高品質、バランスの取れたビデオクリップとアンカットされたビデオクリップからなる新しいデータセットであるCineLOGを紹介します。
それぞれのエントリには詳細なシーン説明、標準的な映画分類に基づく明示的なカメラ指示、ジャンルラベルがあり、17の多様なカメラ運動と15の映画ジャンルのバランスのとれたカバーが確保されている。
また、このデータセットを作成するために設計された新しいパイプラインを提示し、複雑なテキストからビデオへ(T2V)生成タスクを、より成熟した技術でより簡単な4つのステージに分離する。
一貫性のある複数ショットシーケンスを実現するために,スムーズな時空間補間を生成する新しいトラジェクトリガイド遷移モジュールを提案する。
我々のパイプラインは、プロの視覚的品質を維持しつつ、特定のカメラやスクリーンプレイの指示に従うことで、SOTAのエンド・エンドのT2Vモデルよりも大幅に優れています。
すべてのコードとデータはhttps://cine-log.pages.dev.comで公開されている。
関連論文リスト
- CineTrans: Learning to Generate Videos with Cinematic Transitions via Masked Diffusion Models [28.224969852134606]
我々は,コヒーレントなマルチショットビデオを生成するためのフレームワークであるCineTransを紹介した。
CineTransは、フィルム編集スタイルに固執しながら、不安定な遷移やナイーブな結合を避けながら、シネマティックなマルチショットシーケンスを生成する。
論文 参考訳(メタデータ) (2025-08-15T13:58:22Z) - OmniVCus: Feedforward Subject-driven Video Customization with Multimodal Control Conditions [77.04071342405055]
本研究では、画像編集データを用いた画像-動画移動混合(IVTM)訓練を開発し、カスタマイズされたビデオにおける被写体に対するインストラクティブな編集を可能にする。
また,2つの埋め込み機構を持つ拡散トランスフォーマーフレームワークであるOmniVCusを提案し,Luttery Embedding (LE) とTemporally Aligned Embedding (TAE) を提案する。
本手法は定量評価と定性評価の両方において最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2025-06-29T18:43:00Z) - CineVerse: Consistent Keyframe Synthesis for Cinematic Scene Composition [23.795982778641573]
CineVerseは、シーン構成のタスクのための新しいフレームワークである。
従来のマルチショット生成と同様に、我々のタスクはフレーム間の一貫性と連続性の必要性を強調する。
我々の課題は、複数のキャラクター、複雑な相互作用、視覚的映像効果など、映画制作に固有の課題に対処することにも焦点を当てている。
論文 参考訳(メタデータ) (2025-04-28T15:28:14Z) - SkyReels-V2: Infinite-length Film Generative Model [35.00453687783287]
Infinite-length Film Generative Model である SkyReels-V2 を提案し,マルチモーダル大言語モデル(MLLM),マルチステージ事前学習,強化学習,拡散強制フレームワークを提案する。
我々は,基本映像生成のためのプログレッシブ・レゾリューション・プレトレーニングを確立し,その後4段階のポストトレーニング強化を行った。
論文 参考訳(メタデータ) (2025-04-17T16:37:27Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [76.3175166538482]
VideoGen-of-Thought(VGoT)は、単一の文から複数ショットのビデオ合成を自動化するステップバイステップのフレームワークである。
VGoTは、ナラティブな断片化、視覚的不整合、トランジションアーティファクトの3つの課題に対処する。
トレーニング不要のパイプラインで組み合わせられたVGoTは、ショット内面の一貫性が20.4%、スタイルの一貫性が17.4%向上した。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。