論文の概要: LatentWarp: Consistent Diffusion Latents for Zero-Shot Video-to-Video
Translation
- arxiv url: http://arxiv.org/abs/2311.00353v1
- Date: Wed, 1 Nov 2023 08:02:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 14:18:12.326950
- Title: LatentWarp: Consistent Diffusion Latents for Zero-Shot Video-to-Video
Translation
- Title(参考訳): LatentWarp: ゼロショットビデオ・ビデオ翻訳のための連続拡散潜水器
- Authors: Yuxiang Bao, Di Qiu, Guoliang Kang, Baochang Zhang, Bo Jin, Kaiye
Wang, Pengfei Yan
- Abstract要約: 我々はtextitLatentWarp というゼロショット動画翻訳フレームワークを提案する。
我々のアプローチは単純で、クエリトークンの時間的一貫性を制約するために、潜伏した空間にワープ操作を組み込む。
textitLatentWarpの時間的コヒーレンスによるビデオ間翻訳における優位性を示す実験結果を得た。
- 参考スコア(独自算出の注目度): 21.815083817914843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging the generative ability of image diffusion models offers great
potential for zero-shot video-to-video translation. The key lies in how to
maintain temporal consistency across generated video frames by image diffusion
models. Previous methods typically adopt cross-frame attention, \emph{i.e.,}
sharing the \textit{key} and \textit{value} tokens across attentions of
different frames, to encourage the temporal consistency. However, in those
works, temporal inconsistency issue may not be thoroughly solved, rendering the
fidelity of generated videos limited.%The current state of the art cross-frame
attention method aims at maintaining fine-grained visual details across frames,
but it is still challenged by the temporal coherence problem. In this paper, we
find the bottleneck lies in the unconstrained query tokens and propose a new
zero-shot video-to-video translation framework, named \textit{LatentWarp}. Our
approach is simple: to constrain the query tokens to be temporally consistent,
we further incorporate a warping operation in the latent space to constrain the
query tokens. Specifically, based on the optical flow obtained from the
original video, we warp the generated latent features of last frame to align
with the current frame during the denoising process. As a result, the
corresponding regions across the adjacent frames can share closely-related
query tokens and attention outputs, which can further improve latent-level
consistency to enhance visual temporal coherence of generated videos. Extensive
experiment results demonstrate the superiority of \textit{LatentWarp} in
achieving video-to-video translation with temporal coherence.
- Abstract(参考訳): 画像拡散モデルの生成能力を活用することは、ゼロショットビデオからビデオへの翻訳に大きな可能性をもたらす。
重要なのは、画像拡散モデルによって生成されたビデオフレーム間の時間的一貫性を維持する方法にある。
従来手法では、時間的一貫性を促進するために、異なるフレームの注意にまたがる \textit{key} と \textit{value} トークンを共有する。
しかし、これらの作品では、時間的不整合問題が完全に解決されず、生成されたビデオの忠実度が制限される。
%) 美術用クロスフレームアテンション手法の現況は, フレーム間のきめ細かな視覚的詳細を維持することを目的としているが, 時間的コヒーレンス問題に悩まされている。
本稿では,制約のないクエリトークンにボトルネックがあることを見出し,新しいゼロショットビデオからビデオへの変換フレームワークである \textit{latentwarp} を提案する。
我々のアプローチは単純で、クエリトークンを時間的に一貫性のあるものに制限するため、クエリトークンを制約するために潜時空間にワープ操作を組み込む。
具体的には、原映像から得られた光フローに基づいて、発生したラストフレームの潜在特性をノイズ処理中に現在のフレームと整合させるように警告する。
その結果、隣接するフレームにまたがる対応する領域は、関連するクエリトークンとアテンションアウトプットを共有でき、さらに潜在レベルの一貫性を改善し、生成されたビデオの視覚的な時間的コヒーレンスを高めることができる。
時間的コヒーレンスによるビデオ間翻訳の実現において, <textit{LatentWarp} の優位性を示した。
関連論文リスト
- Ouroboros-Diffusion: Exploring Consistent Content Generation in Tuning-free Long Video Diffusion [116.40704026922671]
事前訓練されたテキスト・ツー・ビデオモデルに基づいて構築されたファースト・イン・ファースト・アウト(FIFO)ビデオ拡散は,近年,チューニング不要な長ビデオ生成に有効なアプローチとして浮上している。
We propose Ouroboros-Diffusion, a novel video denoising framework designed to enhance structure and content (ject) consistency。
論文 参考訳(メタデータ) (2025-01-15T18:59:15Z) - FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance [47.88160253507823]
我々は、既存のテキスト制御機構を改善する革新的なビデオジェネレータであるFancyVideoを紹介した。
CTGMは、TII(Temporal Information)、TAR(Temporal Affinity Refiner)、TFB(Temporal Feature Booster)をクロスアテンションの開始、中、末に組み込んでいる。
論文 参考訳(メタデータ) (2024-08-15T14:47:44Z) - FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation [85.29772293776395]
フレーム間対応とフレーム間対応のFRESCOを導入し,より堅牢な時空間制約を確立する。
この拡張により、フレーム間で意味的に類似したコンテンツのより一貫性のある変換が可能になる。
提案手法では,入力ビデオと高空間時間整合性を実現するために,特徴の明示的な更新を行う。
論文 参考訳(メタデータ) (2024-03-19T17:59:18Z) - Human Video Translation via Query Warping [38.9185553719231]
本稿では,時間的コヒーレントなヒューマンモーションビデオ翻訳のための新しいフレームワークであるQueryWarpを紹介する。
外観フローを使用して、前のフレームのクエリトークンをワープし、現在のフレームのクエリと整合させます。
このクエリワープは、自己アテンション層の出力に明示的な制約を課し、時間的コヒーレントな翻訳を効果的に保証する。
論文 参考訳(メタデータ) (2024-02-19T12:28:45Z) - VidToMe: Video Token Merging for Zero-Shot Video Editing [100.79999871424931]
本稿では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める新しい手法を提案する。
本手法は時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を削減する。
論文 参考訳(メタデータ) (2023-12-17T09:05:56Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Progressive Temporal Feature Alignment Network for Video Inpainting [51.26380898255555]
ビデオ畳み込みは、時間内「破損した地域」に可能な内容で埋めることを目指しています。
現在の方法は、注意、フローベースのワープ、あるいは3次元時間的畳み込みによってこの目標を達成する。
現在のフレームから抽出された特徴を、隣接するフレームから歪んだ特徴で段階的に強化する「プログレッシブ・テンポラリティ・アライメント・ネットワーク」を提案します。
論文 参考訳(メタデータ) (2021-04-08T04:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。