Fugu-MT 論文翻訳(概要): LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models

論文の概要: LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models

arxiv url: http://arxiv.org/abs/2309.15103v2
Date: Wed, 27 Sep 2023 03:51:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-28 10:15:19.769985
Title: LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models
Title（参考訳）: LAVIE: Cascaded Latent Diffusion Modelを用いた高品質ビデオ生成
Authors: Yaohui Wang, Xinyuan Chen, Xin Ma, Shangchen Zhou, Ziqi Huang, Yi Wang, Ceyuan Yang, Yinan He, Jiashuo Yu, Peiqing Yang, Yuwei Guo, Tianxing Wu, Chenyang Si, Yuming Jiang, Cunjian Chen, Chen Change Loy, Bo Dai, Dahua Lin, Yu Qiao, Ziwei Liu
Abstract要約: 我々は、訓練済みのテキスト・ツー・イメージ(T2I)モデルをベースとして、高品質なテキスト・ツー・ビデオ生成モデル(T2V)を学習する。本稿では,遅延拡散モデルを用いた統合ビデオ生成フレームワークLaVieを提案する。
参考スコア（独自算出の注目度）: 133.088893990272
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work aims to learn a high-quality text-to-video (T2V) generative model by leveraging a pre-trained text-to-image (T2I) model as a basis. It is a highly desirable yet challenging task to simultaneously a) accomplish the synthesis of visually realistic and temporally coherent videos while b) preserving the strong creative generation nature of the pre-trained T2I model. To this end, we propose LaVie, an integrated video generation framework that operates on cascaded video latent diffusion models, comprising a base T2V model, a temporal interpolation model, and a video super-resolution model. Our key insights are two-fold: 1) We reveal that the incorporation of simple temporal self-attentions, coupled with rotary positional encoding, adequately captures the temporal correlations inherent in video data. 2) Additionally, we validate that the process of joint image-video fine-tuning plays a pivotal role in producing high-quality and creative outcomes. To enhance the performance of LaVie, we contribute a comprehensive and diverse video dataset named Vimeo25M, consisting of 25 million text-video pairs that prioritize quality, diversity, and aesthetic appeal. Extensive experiments demonstrate that LaVie achieves state-of-the-art performance both quantitatively and qualitatively. Furthermore, we showcase the versatility of pre-trained LaVie models in various long video generation and personalized video synthesis applications.
Abstract（参考訳）: 本研究の目的は、訓練済みのテキスト・ツー・イメージ(T2I)モデルをベースとして、高品質なテキスト・ツー・ビデオ(T2V)生成モデルを学習することである。同時に行うことが非常に望ましいが難しいタスクである。 a) 映像的かつ時間的にコヒーレントな映像の合成を実現すること b)事前訓練されたt2iモデルの強い創造性を維持すること。そこで本稿では,ベースt2vモデル,時間的補間モデル,ビデオ超解像モデルからなる,カスケードされたビデオ潜在拡散モデルで動作する統合ビデオ生成フレームワークlavieを提案する。私たちの重要な洞察は2つあります。 1) ビデオデータに内在する時間的相関関係を, 簡易な時間的自己注意と回転的位置エンコーディングの併用により適切に捉えることを明らかにする。 2) 高品質で創造的な結果を生み出す上で, 共同映像調整のプロセスが重要な役割を担っていることを検証する。 LaVieの性能向上のために,品質,多様性,美的魅力を優先する2500万のテキストビデオペアからなる,Vimeo25Mという,包括的で多様なビデオデータセットをコントリビュートした。大規模な実験により、LaVieは定量的にも定性的にも最先端のパフォーマンスを達成することを示した。さらに,様々な長期ビデオ生成およびパーソナライズされたビデオ合成アプリケーションにおいて,事前学習したLaVieモデルの汎用性を示す。

関連論文リスト

SkyReels-V3 Technique Report [23.793804843416606]
ビデオの堅牢性は、コンテキスト推論が能力の定義テストである世界モデル構築の基盤となる。拡散変換器を用いたマルチモーダル・イン・コンテクスト学習フレームワーク上に構築した条件付きビデオ生成モデルSkyReels-V3を提案する。 SkyReels-V3モデルは、イメージ・トゥ・ビデオ合成、ビデオ・ツー・ビデオ拡張、オーディオ誘導ビデオ生成という、3つのコア生成パラダイムを単一のアーキテクチャでサポートする。
論文参考訳（メタデータ） (2026-01-24T06:08:12Z)
CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation [52.0601996237501]
Chain-of-Frame(CoF)推論はフレーム単位の視覚的推論を可能にする。 CoF-T2Iは、プログレッシブ・ビジュアル・リファインメントによるテキスト・ツー・イメージ(T2I)生成にCoF推論を統合する。実験の結果、CoF-T2Iはベースビデオモデルよりも大幅に優れていた。
論文参考訳（メタデータ） (2026-01-15T04:33:06Z)
DreamVVT: Mastering Realistic Video Virtual Try-On in the Wild via a Stage-Wise Diffusion Transformer Framework [26.661935208583756]
VVT(Virtual try-on)技術は、eコマース広告やエンターテイメントに将来性があるとして、学術的な関心を集めている。本研究では,現実のシナリオにおける適応性を高めるために,多種多様な人間中心データを活用することが可能なDreamVVTを提案する。第1段階では、入力ビデオから代表フレームをサンプリングし、視覚言語モデル(VLM)と統合された多フレーム試行モデルを用いて、高忠実で意味論的に整合した試行画像を合成する。第2段階では、微粒な動きと外観記述とともに骨格図が作成される。
論文参考訳（メタデータ） (2025-08-04T18:27:55Z)
Encapsulated Composition of Text-to-Image and Text-to-Video Models for High-Quality Video Synthesis [14.980220974022982]
本稿では,T2IモデルとT2Vモデルを構成するトレーニング不要なカプセル化ビデオ合成装置であるEVSを紹介し,視覚的忠実度と動きの滑らかさを両立させる。提案手法は,低品質ビデオフレームを改良するために,よく訓練された拡散ベースT2Iモデルを用いる。また、一貫した運動力学を保証するためにT2Vバックボーンを用いる。
論文参考訳（メタデータ） (2025-07-18T08:59:02Z)
SkyReels-V2: Infinite-length Film Generative Model [35.00453687783287]
Infinite-length Film Generative Model である SkyReels-V2 を提案し,マルチモーダル大言語モデル(MLLM),マルチステージ事前学習,強化学習,拡散強制フレームワークを提案する。我々は,基本映像生成のためのプログレッシブ・レゾリューション・プレトレーニングを確立し,その後4段階のポストトレーニング強化を行った。
論文参考訳（メタデータ） (2025-04-17T16:37:27Z)
STIV: Scalable Text and Image Conditioned Video Generation [84.2574247093223]
本稿では,STIVという,シンプルでスケーラブルなテキスト画像条件付きビデオ生成手法を提案する。本フレームワークは,テキストコンディショニングを取り入れつつ,フレーム交換による拡散変換器(DiT)に画像条件を統合する。 STIVは、ビデオ予測、フレーム、マルチビュー生成、長いビデオ生成など、様々なアプリケーションに容易に拡張できる。
論文参考訳（メタデータ） (2024-12-10T18:27:06Z)
T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design [79.7289790249621]
提案手法であるT2V-Turbo-v2は、様々な監視信号を統合することにより、大幅な進歩をもたらす。特定の学習目標に対するデータセットの調整の重要性を強調した。トレーニングデータセットから動作ガイダンスを抽出し,ODEソルバに組み込むことにより,このアプローチの可能性を示す。
論文参考訳（メタデータ） (2024-10-08T04:30:06Z)
VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide [48.22321420680046]
VideoGuideは、事前訓練されたテキスト・ツー・ビデオ(T2V)モデルの時間的一貫性を高める新しいフレームワークである。ガイドモデルの復調標本をサンプリングモデルの復調過程に補間することにより、時間的品質を向上させる。提案手法は時間的一貫性と画像の忠実度を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-06T05:46:17Z)
JVID: Joint Video-Image Diffusion for Visual-Quality and Temporal-Consistency in Video Generation [6.463753697299011]
高品質な時間的コヒーレントなビデオを生成するための新しいアプローチであるJVID(Joint Video-Image Diffusion Model)を導入する。その結果,現実的かつ一貫性のあるビデオの制作において,定量的かつ質的な改善が示された。
論文参考訳（メタデータ） (2024-09-21T13:59:50Z)
xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。 VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。 DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文参考訳（メタデータ） (2024-08-22T17:55:22Z)
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文参考訳（メタデータ） (2023-11-25T22:28:38Z)
I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models [54.99771394322512]
ビデオ合成は拡散モデルの急速な発展の恩恵を受け、近年顕著な進歩を遂げている。意味的正確性、明快さ、連続性-時間的連続性という観点ではまだ遭遇に挑戦する。これら2つの要素を分離することでモデル性能を向上させるカスケードI2VGen-XL手法を提案する。 I2VGen-XLは、生成したビデオの意味的精度、詳細の連続性、明快さを同時に向上させることができる。
論文参考訳（メタデータ） (2023-11-07T17:16:06Z)
Video Probabilistic Diffusion Models in Projected Latent Space [75.4253202574722]
我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。 PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
論文参考訳（メタデータ） (2023-02-15T14:22:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。