論文の概要: Fine-Tuning Open Video Generators for Cinematic Scene Synthesis: A Small-Data Pipeline with LoRA and Wan2.1 I2V
- arxiv url: http://arxiv.org/abs/2510.27364v1
- Date: Fri, 31 Oct 2025 10:51:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.077176
- Title: Fine-Tuning Open Video Generators for Cinematic Scene Synthesis: A Small-Data Pipeline with LoRA and Wan2.1 I2V
- Title(参考訳): シーン合成用微調整オープンビデオジェネレータ:LoRAとWan2.1 I2Vを用いた小型データパイプライン
- Authors: Meftun Akarsu, Kerem Catay, Sedat Bin Vedat, Enes Kutay Yarkan, Ilke Senturk, Arda Sar, Dafne Eksioglu,
- Abstract要約: 小型のデータセットから映像や映像の撮影シーンを合成するために,オープンソースビデオ拡散トランスフォーマを微調整する実用的なパイプラインを提案する。
LoRAモジュールはWan2.1 I2V-14Bモデルのクロスアテンション層に統合され、視覚的表現に適応する。
第2段階では、微調整されたモデルでは、衣装、照明、色階調を保存するコヒーレントなコヒーレントが生成され、時間的に720pのシーケンスに拡張される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a practical pipeline for fine-tuning open-source video diffusion transformers to synthesize cinematic scenes for television and film production from small datasets. The proposed two-stage process decouples visual style learning from motion generation. In the first stage, Low-Rank Adaptation (LoRA) modules are integrated into the cross-attention layers of the Wan2.1 I2V-14B model to adapt its visual representations using a compact dataset of short clips from Ay Yapim's historical television film El Turco. This enables efficient domain transfer within hours on a single GPU. In the second stage, the fine-tuned model produces stylistically consistent keyframes that preserve costume, lighting, and color grading, which are then temporally expanded into coherent 720p sequences through the model's video decoder. We further apply lightweight parallelization and sequence partitioning strategies to accelerate inference without quality degradation. Quantitative and qualitative evaluations using FVD, CLIP-SIM, and LPIPS metrics, supported by a small expert user study, demonstrate measurable improvements in cinematic fidelity and temporal stability over the base model. The complete training and inference pipeline is released to support reproducibility and adaptation across cinematic domains.
- Abstract(参考訳): 小型のデータセットから映像や映像の撮影シーンを合成するために,オープンソースビデオ拡散トランスフォーマを微調整する実用的なパイプラインを提案する。
提案した2段階のプロセスは、モーション生成から視覚スタイルの学習を分離する。
最初の段階では、ローランド適応(LoRA)モジュールがWan2.1 I2V-14Bモデルのクロスアテンション層に統合され、エイ・ヤピムの歴史的テレビ映画『エル・トゥルコ』の短いクリップのコンパクトなデータセットを使用して視覚的表現を適応させる。
これにより、単一のGPU上で数時間で効率的なドメイン転送が可能になる。
第2段階では、微調整されたモデルがスタイリスティックに一貫性のあるキーフレームを生成し、衣装、照明、色階調を保存し、その後、モデルのビデオデコーダを通じて時間的にコヒーレントな720pシーケンスに拡張する。
さらに、並列化とシーケンス分割を併用して、品質劣化を伴わずに推論を高速化する。
FVD, CLIP-SIM, LPIPS測定値を用いた定量的, 定性的な評価を行った。
完全なトレーニングと推論パイプラインがリリースされ、映画ドメイン間の再現性と適応をサポートする。
関連論文リスト
- Temporal In-Context Fine-Tuning for Versatile Control of Video Diffusion Models [34.131515004434846]
我々は,事前学習した映像拡散モデルを条件付き生成タスクに適用するための効率的なアプローチであるTIC-FT(Temporal In-Context Fine-Tuning)を導入する。
TIC-FTはアーキテクチャの変更を必要とせず、10-30のトレーニングサンプルで高いパフォーマンスを実現している。
我々は,CagVideoX-5B や Wan-14B といった大規模ベースモデルを用いて,映像映像生成や映像映像生成など,様々なタスクにまたがる手法を検証する。
論文 参考訳(メタデータ) (2025-06-01T12:57:43Z) - MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。
まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。
次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。
第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。
第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文 参考訳(メタデータ) (2024-10-10T07:07:56Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - BVI-RLV: A Fully Registered Dataset and Benchmarks for Low-Light Video Enhancement [56.97766265018334]
本稿では,2つの異なる低照度条件下での様々な動きシナリオを持つ40のシーンからなる低照度映像データセットを提案する。
我々は、プログラム可能なモータードリーを用いて、通常の光で捉えた完全に登録された地上真実データを提供し、異なる光レベルにわたるピクセルワイドフレームアライメントのための画像ベースアプローチによりそれを洗練する。
実験の結果,Low-light Video enhancement (LLVE) における完全登録ビデオペアの重要性が示された。
論文 参考訳(メタデータ) (2024-07-03T22:41:49Z) - RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter [77.0205013713008]
Text-Video Retrieval (TVR)は、関連するビデオコンテンツと自然言語クエリを連携させることを目的としている。
現在までに、ほとんどの最先端のTVR手法は、大規模な事前学習された視覚モデルに基づいて、画像からビデオへの変換学習を学習している。
パラメータ化層数で事前学習モデルの微調整を行うためのスパース・アンド・コラージュAdaPter (RAP) を提案する。
論文 参考訳(メタデータ) (2024-05-29T19:23:53Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。