論文の概要: FlowVid: Taming Imperfect Optical Flows for Consistent Video-to-Video
Synthesis
- arxiv url: http://arxiv.org/abs/2312.17681v1
- Date: Fri, 29 Dec 2023 16:57:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 08:50:23.982262
- Title: FlowVid: Taming Imperfect Optical Flows for Consistent Video-to-Video
Synthesis
- Title(参考訳): FlowVid: 一貫性のあるビデオ-ビデオ合成のための不完全な光フローのモデリング
- Authors: Feng Liang, Bichen Wu, Jialiang Wang, Licheng Yu, Kunpeng Li, Yinan
Zhao, Ishan Misra, Jia-Bin Huang, Peizhao Zhang, Peter Vajda, Diana
Marculescu
- Abstract要約: 拡散モデルはイメージ・ツー・イメージ(I2I)合成を変換し、現在はビデオに浸透している。
本稿では,空間条件と時間的光フロー手がかりを併用した一貫したV2V合成フレームワークを提案する。
- 参考スコア(独自算出の注目度): 66.2611385251157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have transformed the image-to-image (I2I) synthesis and are
now permeating into videos. However, the advancement of video-to-video (V2V)
synthesis has been hampered by the challenge of maintaining temporal
consistency across video frames. This paper proposes a consistent V2V synthesis
framework by jointly leveraging spatial conditions and temporal optical flow
clues within the source video. Contrary to prior methods that strictly adhere
to optical flow, our approach harnesses its benefits while handling the
imperfection in flow estimation. We encode the optical flow via warping from
the first frame and serve it as a supplementary reference in the diffusion
model. This enables our model for video synthesis by editing the first frame
with any prevalent I2I models and then propagating edits to successive frames.
Our V2V model, FlowVid, demonstrates remarkable properties: (1) Flexibility:
FlowVid works seamlessly with existing I2I models, facilitating various
modifications, including stylization, object swaps, and local edits. (2)
Efficiency: Generation of a 4-second video with 30 FPS and 512x512 resolution
takes only 1.5 minutes, which is 3.1x, 7.2x, and 10.5x faster than CoDeF,
Rerender, and TokenFlow, respectively. (3) High-quality: In user studies, our
FlowVid is preferred 45.7% of the time, outperforming CoDeF (3.5%), Rerender
(10.2%), and TokenFlow (40.4%).
- Abstract(参考訳): 拡散モデルは画像から画像への合成を変換し、現在ではビデオに浸透している。
しかし、ビデオフレーム間の時間的一貫性を維持するという課題により、V2V合成の進歩が妨げられている。
本稿では,空間条件と時間的光フロー手がかりを併用した一貫したV2V合成フレームワークを提案する。
光流に厳密に従属する従来の手法とは対照的に,本手法は流れ推定の不完全さを処理しながらその利点を生かしている。
第1フレームからの反りによる光流れを符号化し、拡散モデルにおける補足参照として機能する。
これにより,第1のフレームを任意の一般的なi2iモデルで編集し,編集を連続するフレームに伝達することにより,映像合成のためのモデルを実現する。
柔軟性: FlowVidは既存のI2Iモデルとシームレスに動作し、スタイリゼーションやオブジェクトスワップ、ローカル編集など、さまざまな変更を容易にします。
2) 効率性: 30 FPS と 512 x512 の解像度を持つ 4 秒のビデオは、それぞれ CoDeF, Rerender, TokenFlow よりも3.1x, 7.2x, 10.5x の 1.5 分で生成される。
(3)高品質:私たちのFlowVidは45.7%の時間を好んでおり、CoDeF (3.5%)、Rerender (10.2%)、TokenFlow (40.4%)を上回っている。
関連論文リスト
- Fairy: Fast Parallelized Instruction-Guided Video-to-Video Synthesis [51.44526084095757]
画像編集拡散モデルのミニマリストでありながらロバストな適応であるFairyを導入し,映像編集用として拡張する。
提案手法は,フレーム間の拡散特性を暗黙的に伝播させる機構であるアンカーベースクロスフレームアテンションの概念に重点を置いている。
1000個のサンプルを含む総合的なユーザスタディは、我々のアプローチが優れた品質を提供し、確定的に確立された方法よりも優れた結果をもたらすことを確認します。
論文 参考訳(メタデータ) (2023-12-20T01:49:47Z) - Text2AC-Zero: Consistent Synthesis of Animated Characters using 2D
Diffusion [52.196540278796476]
本稿では,事前学習されたテキスト・トゥ・イメージ(T2I)拡散モデルに基づく一貫したテキスト・トゥ・アニメーション・文字合成のためのゼロショット手法を提案する。
我々は、既存のテキストベースの動き拡散モデルを利用して、T2Iモデルを誘導する多様な動きを生成する。
提案手法は,時間的に一貫した動画を多種多様な動きやスタイルで生成し,画素単位の一貫性とユーザの好みで既存のゼロショットT2Vアプローチより優れている。
論文 参考訳(メタデータ) (2023-12-12T10:07:37Z) - FusionFrames: Efficient Architectural Aspects for Text-to-Video
Generation Pipeline [4.295130967329365]
本稿では,テキスト・ツー・イメージ拡散モデルに基づく2段階の遅延拡散テキスト・ビデオ生成アーキテクチャを提案する。
本モデルの設計は,他のマスクフレーム手法と比較して計算コストを大幅に削減する。
我々は,MoVQに基づくビデオデコーディング方式の異なる構成を評価し,一貫性を改善し,PSNR,SSIM,MSE,LPIPSのスコアを向上させる。
論文 参考訳(メタデータ) (2023-11-22T00:26:15Z) - MoVideo: Motion-Aware Video Generation with Diffusion Models [102.81825637792572]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。
MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文 参考訳(メタデータ) (2023-11-19T13:36:03Z) - I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion
Models [54.99771394322512]
ビデオ合成は拡散モデルの急速な発展の恩恵を受け、近年顕著な進歩を遂げている。
意味的正確性、明快さ、連続性-時間的連続性という観点ではまだ遭遇に挑戦する。
これら2つの要素を分離することでモデル性能を向上させるカスケードI2VGen-XL手法を提案する。
I2VGen-XLは、生成したビデオの意味的精度、詳細の連続性、明快さを同時に向上させることができる。
論文 参考訳(メタデータ) (2023-11-07T17:16:06Z) - MVFlow: Deep Optical Flow Estimation of Compressed Videos with Motion
Vector Prior [16.633665275166706]
圧縮ビデオにおける光フロー推定の速度と精度を向上させるために運動ベクトルを用いた光フローモデルMVFlowを提案する。
実験の結果,既存のモデルと比較して提案したMVFlowの1.09倍の精度を示し,既存のモデルと同様の精度で保存時間を短縮した。
論文 参考訳(メタデータ) (2023-08-03T07:16:18Z) - VideoFlow: Exploiting Temporal Cues for Multi-frame Optical Flow
Estimation [61.660040308290796]
VideoFlowはビデオのための新しい光フロー推定フレームワークである。
まず、TRiフレーム光フロー(TROF)モジュールを提案し、3フレーム方式で中央フレームの双方向光フローを推定する。
反復流量推定精細化により、個々のTROFに融合した情報をMOPを介して全シーケンスに伝播することができる。
論文 参考訳(メタデータ) (2023-03-15T03:14:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。