論文の概要: LayerFlow: A Unified Model for Layer-aware Video Generation
- arxiv url: http://arxiv.org/abs/2506.04228v1
- Date: Wed, 04 Jun 2025 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.523442
- Title: LayerFlow: A Unified Model for Layer-aware Video Generation
- Title(参考訳): LayerFlow: レイヤ対応ビデオ生成のための統一モデル
- Authors: Sihui Ji, Hao Luo, Xi Chen, Yuanpeng Tu, Yiyang Wang, Hengshuang Zhao,
- Abstract要約: レイヤごとのプロンプトが与えられると、LayerFlowは透明なフォアグラウンド、クリーンなバックグラウンド、ブレンドシーンのためのビデオを生成する。
また、ブレンドされたビデオを分解したり、フォアグラウンドの背景を生成するなど、多用途のバリエーションもサポートしている。
- 参考スコア(独自算出の注目度): 30.252873238218324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present LayerFlow, a unified solution for layer-aware video generation. Given per-layer prompts, LayerFlow generates videos for the transparent foreground, clean background, and blended scene. It also supports versatile variants like decomposing a blended video or generating the background for the given foreground and vice versa. Starting from a text-to-video diffusion transformer, we organize the videos for different layers as sub-clips, and leverage layer embeddings to distinguish each clip and the corresponding layer-wise prompts. In this way, we seamlessly support the aforementioned variants in one unified framework. For the lack of high-quality layer-wise training videos, we design a multi-stage training strategy to accommodate static images with high-quality layer annotations. Specifically, we first train the model with low-quality video data. Then, we tune a motion LoRA to make the model compatible with static frames. Afterward, we train the content LoRA on the mixture of image data with high-quality layered images along with copy-pasted video data. During inference, we remove the motion LoRA thus generating smooth videos with desired layers.
- Abstract(参考訳): レイヤ対応ビデオ生成のための統合ソリューションであるLayerFlowを提案する。
レイヤごとのプロンプトが与えられると、LayerFlowは透明なフォアグラウンド、クリーンなバックグラウンド、ブレンドシーンのためのビデオを生成する。
また、ブレンドされたビデオを分解したり、フォアグラウンドの背景を生成するなど、多用途のバリエーションもサポートしている。
テキストからビデオへの拡散変換器から始まり、異なるレイヤの動画をサブクリップとして整理し、各クリップと対応するレイヤワイズプロンプトを区別するために層埋め込みを利用する。
このようにして、上記の変種を1つの統一されたフレームワークでシームレスにサポートします。
高品質なレイヤワイドトレーニングビデオが欠如しているため、我々は、高品質なレイヤアノテーションで静的イメージを適応するためのマルチステージトレーニング戦略を設計する。
具体的には、まず低品質のビデオデータでモデルをトレーニングする。
次に、静的フレームとの互換性を確保するために、モーションLoRAをチューニングする。
その後、画像データと高品質な層画像とを混合して、コピー画像データとともにコンテンツLoRAを訓練する。
推論中、我々はLoRAを除去し、所望の層でスムーズなビデオを生成する。
関連論文リスト
- PSDiffusion: Harmonized Multi-Layer Image Generation via Layout and Appearance Alignment [24.964578950380947]
PSDiffusionは、同時多層テキスト・画像生成のための統合拡散フレームワークである。
我々のモデルは、1つのRGB背景と複数のRGBAフォアグラウンドを持つ多層画像を自動的に生成することができる。
本手法では,層状画像を並列かつ協調的に生成するグローバル層対話機構を提案する。
論文 参考訳(メタデータ) (2025-05-16T17:23:35Z) - LayerAnimate: Layer-level Control for Animation [46.73168828036286]
既存のアニメ生成ビデオ手法は、アニメーションを実際のビデオとは異なるデータ領域として扱い、層レベルでのきめ細かい制御を欠いている。
本稿では,レイヤレベルの制御によるレイヤ操作を支援するレイヤ対応アーキテクチャを備えた,新しいビデオ拡散フレームワークであるLayerAnimateを紹介する。
このフレームワークは、レイヤーレベルのアニメーションアプリケーションとクリエイティブな柔軟性の新しい可能性を開く。
論文 参考訳(メタデータ) (2025-01-14T18:22:21Z) - LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion Model [70.14953942532621]
層共同拡散モデルであるLayerDiffは、テキスト誘導、多層化、構成可能な画像合成のために設計されている。
本モデルでは,従来の全画像生成手法に匹敵する性能で,高品質な多層画像を生成することができる。
LayerDiffは、レイヤ固有の画像編集やスタイル転送など、幅広いコントロール可能な生成アプリケーションを可能にする。
論文 参考訳(メタデータ) (2024-03-18T16:28:28Z) - VideoStudio: Generating Consistent-Content and Multi-Scene Videos [88.88118783892779]
VideoStudioは、一貫したコンテンツとマルチシーンのビデオ生成のためのフレームワークである。
VideoStudioはLarge Language Models (LLM)を活用して、入力プロンプトを総合的なマルチシーンスクリプトに変換する。
VideoStudioは、視覚的品質、コンテンツ整合性、ユーザの好みといった点で、SOTAビデオ生成モデルよりも優れています。
論文 参考訳(メタデータ) (2024-01-02T15:56:48Z) - Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation [92.55296042611886]
リユースとディフューズ”と呼ばれるフレームワークを$textitVidRD$と名づけて提案する。
また、既存の複数のデータセットからの多様なコンテンツを含むビデオテキストデータを構成するための一連の戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T08:12:58Z) - WALDO: Future Video Synthesis using Object Layer Decomposition and
Parametric Flow Prediction [82.79642869586587]
WALDOは、過去のビデオフレームを予測するための新しいアプローチである。
個々の画像は、オブジェクトマスクと小さなコントロールポイントのセットを組み合わせた複数の層に分解される。
レイヤ構造は、各ビデオ内のすべてのフレーム間で共有され、フレーム間の密接な接続を構築する。
論文 参考訳(メタデータ) (2022-11-25T18:59:46Z) - Unsupervised Video Interpolation by Learning Multilayered 2.5D Motion
Fields [75.81417944207806]
本稿では,ビデオフレーム学習において,単一のビデオのみを必要とする自己教師型アプローチを提案する。
時間変化運動場上に定義された通常の微分可能方程式(ODE)を解くことにより,映像の動きをパラメータ化する。
この暗黙的な神経表現は、ビデオを時空間連続体として学習し、任意の時間分解能でフレーム時間連続体を可能にする。
論文 参考訳(メタデータ) (2022-04-21T06:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。