論文の概要: Fuse Your Latents: Video Editing with Multi-source Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2310.16400v2
- Date: Tue, 08 Oct 2024 09:10:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:29:43.302582
- Title: Fuse Your Latents: Video Editing with Multi-source Latent Diffusion Models
- Title(参考訳): マルチソース遅延拡散モデルによるビデオ編集
- Authors: Tianyi Lu, Xing Zhang, Jiaxi Gu, Renjing Pei, Songcen Xu, Xingjun Ma, Hang Xu, Zuxuan Wu,
- Abstract要約: 遅延拡散モデル(LDM)は、画像合成やビデオ合成において強力な能力を持つことで有名である。
本稿では,T2I と T2V LDM を統合し,高品質なテキスト・ツー・ビデオ(T2V)編集を実現するフレームワークであるFLDMを提案する。
本稿では,T2I と T2V の LDM が,構造的・時間的整合性において相互に補完可能であることを初めて明らかにする。
- 参考スコア(独自算出の注目度): 66.12367865049572
- License:
- Abstract: Latent Diffusion Models (LDMs) are renowned for their powerful capabilities in image and video synthesis. Yet, compared to text-to-image (T2I) editing, text-to-video (T2V) editing suffers from a lack of decent temporal consistency and structure, due to insufficient pre-training data, limited model editability, or extensive tuning costs. To address this gap, we propose FLDM (Fused Latent Diffusion Model), a training-free framework that achieves high-quality T2V editing by integrating various T2I and T2V LDMs. Specifically, FLDM utilizes a hyper-parameter with an update schedule to effectively fuse image and video latents during the denoising process. This paper is the first to reveal that T2I and T2V LDMs can complement each other in terms of structure and temporal consistency, ultimately generating high-quality videos. It is worth noting that FLDM can serve as a versatile plugin, applicable to off-the-shelf image and video LDMs, to significantly enhance the quality of video editing. Extensive quantitative and qualitative experiments on popular T2I and T2V LDMs demonstrate FLDM's superior editing quality than state-of-the-art T2V editing methods. Our project code is available at https://github.com/lutianyi0603/fuse_your_latents.
- Abstract(参考訳): 遅延拡散モデル(LDM)は、画像合成やビデオ合成において強力な能力を持つことで有名である。
しかし、テキスト・トゥ・イメージ(T2I)編集と比較して、テキスト・トゥ・ビデオ(T2V)編集は、十分な時間的一貫性と構造が欠如している。
FLDM(Fused Latent Diffusion Model)は,様々なT2IとT2VのLDMを統合し,高品質なT2V編集を実現する。
具体的には、更新スケジュールを持つハイパーパラメータを使用して、デノナイジングプロセス中に画像とビデオの潜伏者を効果的に融合させる。
本稿では,T2I と T2V の LDM が,構造的・時間的整合性において相互に補完し,高品質な映像を生成できることを初めて明らかにする。
FLDMは、ビデオ編集の質を著しく向上させるために、市販の画像やビデオ LDM に適用できる汎用的なプラグインとして機能できることは注目に値する。
一般的なT2IおよびT2V LDMの定量および定性的実験により、FLDMの編集品質は最先端のT2V編集方法よりも優れていることが示された。
私たちのプロジェクトコードはhttps://github.com/lutianyi0603/fuse_your_latents.comで利用可能です。
関連論文リスト
- Prior Knowledge Integration via LLM Encoding and Pseudo Event Regulation for Video Moment Retrieval [23.94611751368491]
本稿では,大言語モデル(LLM)を一般知識の統合に活用し,擬似イベントを時間的コンテンツ配信の先駆けとして活用する可能性について検討する。
これらの制限を克服するために,デコーダの代わりにLLMエンコーダを提案する。
LLMエンコーダを既存のVMRアーキテクチャ、特に核融合モジュールに組み込むための一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-21T04:39:06Z) - Self-correcting LLM-controlled Diffusion Models [83.26605445217334]
自己補正LPM制御拡散(SLD)を導入する
SLDは、入力プロンプトから画像を生成し、プロンプトとアライメントを評価し、生成した画像の不正確性に対して自己補正を行うフレームワークである。
提案手法は, 生成数, 属性結合, 空間的関係において, 不正確な世代の大部分を補正することができる。
論文 参考訳(メタデータ) (2023-11-27T18:56:37Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z) - Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM
Animator [59.589919015669274]
本研究では,データ・コスト効率を考慮したゼロショットテキスト・ビデオ生成に焦点を当てた。
本稿では,大規模言語モデル (LLM) をディレクタとして活用し,セマンティック・コヒーレンス・プロンプト・シーケンスを生成する新しいフリーブルームパイプラインを提案する。
また,共同ノイズサンプリング,ステップ・アウェア・アテンション・シフト,デュアルパスなど,逆処理におけるLCMの適応に対する注釈修正も提案する。
論文 参考訳(メタデータ) (2023-09-25T19:42:16Z) - Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation [92.55296042611886]
リユースとディフューズ”と呼ばれるフレームワークを$textitVidRD$と名づけて提案する。
また、既存の複数のデータセットからの多様なコンテンツを含むビデオテキストデータを構成するための一連の戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T08:12:58Z) - MeDM: Mediating Image Diffusion Models for Video-to-Video Translation
with Temporal Correspondence Guidance [10.457759140533168]
本研究では,一貫した時間的流れを伴うビデオ間翻訳において,事前学習した画像拡散モデルを用いた効率よく効果的な方法であるMeDMを提案する。
我々は、生成したフレームの物理的制約を強制し、独立したフレーム単位のスコアを仲介する実用的な符号化を構築するために、明示的な光学フローを用いる。
論文 参考訳(メタデータ) (2023-08-19T17:59:12Z) - Align your Latents: High-Resolution Video Synthesis with Latent
Diffusion Models [71.11425812806431]
遅延拡散モデル(LDM)は、過剰な計算要求を回避しながら高品質な画像合成を可能にする。
本稿では, LDMパラダイムを高分解能な生成, 特に資源集約的なタスクに適用する。
そこで本研究では,テキスト・ツー・ビデオ・モデリングによる実世界のシミュレーションとクリエイティブ・コンテンツ作成の2つの応用に焦点をあてる。
論文 参考訳(メタデータ) (2023-04-18T08:30:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。