Fugu-MT 論文翻訳(概要): Fuse Your Latents: Video Editing with Multi-source Latent Diffusion Models

論文の概要: Fuse Your Latents: Video Editing with Multi-source Latent Diffusion Models

arxiv url: http://arxiv.org/abs/2310.16400v2
Date: Tue, 08 Oct 2024 09:10:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 06:51:17.914813
Title: Fuse Your Latents: Video Editing with Multi-source Latent Diffusion Models
Title（参考訳）: マルチソース遅延拡散モデルによるビデオ編集
Authors: Tianyi Lu, Xing Zhang, Jiaxi Gu, Renjing Pei, Songcen Xu, Xingjun Ma, Hang Xu, Zuxuan Wu,
Abstract要約: 遅延拡散モデル(LDM)は、画像合成やビデオ合成において強力な能力を持つことで有名である。本稿では,T2I と T2V LDM を統合し,高品質なテキスト・ツー・ビデオ(T2V)編集を実現するフレームワークであるFLDMを提案する。本稿では,T2I と T2V の LDM が,構造的・時間的整合性において相互に補完可能であることを初めて明らかにする。
参考スコア（独自算出の注目度）: 66.12367865049572
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Latent Diffusion Models (LDMs) are renowned for their powerful capabilities in image and video synthesis. Yet, compared to text-to-image (T2I) editing, text-to-video (T2V) editing suffers from a lack of decent temporal consistency and structure, due to insufficient pre-training data, limited model editability, or extensive tuning costs. To address this gap, we propose FLDM (Fused Latent Diffusion Model), a training-free framework that achieves high-quality T2V editing by integrating various T2I and T2V LDMs. Specifically, FLDM utilizes a hyper-parameter with an update schedule to effectively fuse image and video latents during the denoising process. This paper is the first to reveal that T2I and T2V LDMs can complement each other in terms of structure and temporal consistency, ultimately generating high-quality videos. It is worth noting that FLDM can serve as a versatile plugin, applicable to off-the-shelf image and video LDMs, to significantly enhance the quality of video editing. Extensive quantitative and qualitative experiments on popular T2I and T2V LDMs demonstrate FLDM's superior editing quality than state-of-the-art T2V editing methods. Our project code is available at https://github.com/lutianyi0603/fuse_your_latents.
Abstract（参考訳）: 遅延拡散モデル(LDM)は、画像合成やビデオ合成において強力な能力を持つことで有名である。しかし、テキスト・トゥ・イメージ(T2I)編集と比較して、テキスト・トゥ・ビデオ(T2V)編集は、十分な時間的一貫性と構造が欠如している。 FLDM(Fused Latent Diffusion Model)は,様々なT2IとT2VのLDMを統合し,高品質なT2V編集を実現する。具体的には、更新スケジュールを持つハイパーパラメータを使用して、デノナイジングプロセス中に画像とビデオの潜伏者を効果的に融合させる。本稿では,T2I と T2V の LDM が,構造的・時間的整合性において相互に補完し,高品質な映像を生成できることを初めて明らかにする。 FLDMは、ビデオ編集の質を著しく向上させるために、市販の画像やビデオ LDM に適用できる汎用的なプラグインとして機能できることは注目に値する。一般的なT2IおよびT2V LDMの定量および定性的実験により、FLDMの編集品質は最先端のT2V編集方法よりも優れていることが示された。私たちのプロジェクトコードはhttps://github.com/lutianyi0603/fuse_your_latents.comで利用可能です。

関連論文リスト

Encapsulated Composition of Text-to-Image and Text-to-Video Models for High-Quality Video Synthesis [14.980220974022982]
本稿では,T2IモデルとT2Vモデルを構成するトレーニング不要なカプセル化ビデオ合成装置であるEVSを紹介し,視覚的忠実度と動きの滑らかさを両立させる。提案手法は,低品質ビデオフレームを改良するために,よく訓練された拡散ベースT2Iモデルを用いる。また、一貫した運動力学を保証するためにT2Vバックボーンを用いる。
論文参考訳（メタデータ） (2025-07-18T08:59:02Z)
MAKIMA: Tuning-free Multi-Attribute Open-domain Video Editing via Mask-Guided Attention Modulation [55.101611012677616]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは,グローバルビデオ編集タスクにおいて顕著な結果を示した。我々は、オープンドメインビデオ編集のための事前訓練されたT2Iモデル上に構築された、チューニング不要なMAEフレームワークであるMAKIMAを紹介する。
論文参考訳（メタデータ） (2024-12-28T02:36:51Z)
VideoDirector: Precise Video Editing via Text-to-Video Models [45.53826541639349]
現在のビデオ編集法は、時間的コヒーレンス生成能力を欠くテキスト・ツー・ビデオ(T2V)モデルに依存している。本稿では、より正確なピボットインバージョンを実現するために、時空間デカップリングガイダンス(STDG)と複数フレームのヌルテキスト最適化戦略を提案する。実験結果から,本手法はT2Vモデルの強力な時間生成能力を効果的に活用できることが示唆された。
論文参考訳（メタデータ） (2024-11-26T16:56:53Z)
VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide [48.22321420680046]
VideoGuideは、事前訓練されたテキスト・ツー・ビデオ(T2V)モデルの時間的一貫性を高める新しいフレームワークである。ガイドモデルの復調標本をサンプリングモデルの復調過程に補間することにより、時間的品質を向上させる。提案手法は時間的一貫性と画像の忠実度を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-06T05:46:17Z)
VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models [94.25084162939488]
テキスト間拡散モデル(T2V)は、フレーム品質とテキストアライメントがまだ遅れている。我々は,T2Iの優れた機能を利用して,T2Vの性能を向上させる,トレーニングフリーでプラグアンドプレイの手法であるVideoElevatorを紹介した。
論文参考訳（メタデータ） (2024-03-08T16:44:54Z)
LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models [133.088893990272]
我々は、訓練済みのテキスト・ツー・イメージ(T2I)モデルをベースとして、高品質なテキスト・ツー・ビデオ生成モデル(T2V)を学習する。本稿では,遅延拡散モデルを用いた統合ビデオ生成フレームワークLaVieを提案する。
論文参考訳（メタデータ） (2023-09-26T17:52:03Z)
Edit Temporal-Consistent Videos with Image Diffusion Model [49.88186997567138]
大規模テキスト・ツー・イメージ(T2I)拡散モデルがテキスト誘導ビデオ編集のために拡張されている。 Tは、ビデオ時間的一貫性とビデオ編集機能の両方において最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-08-17T16:40:55Z)
Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models [71.11425812806431]
遅延拡散モデル(LDM)は、過剰な計算要求を回避しながら高品質な画像合成を可能にする。本稿では, LDMパラダイムを高分解能な生成, 特に資源集約的なタスクに適用する。そこで本研究では,テキスト・ツー・ビデオ・モデリングによる実世界のシミュレーションとクリエイティブ・コンテンツ作成の2つの応用に焦点をあてる。
論文参考訳（メタデータ） (2023-04-18T08:30:32Z)
Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文参考訳（メタデータ） (2023-03-14T14:35:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。