Fugu-MT 論文翻訳(概要): FlowVid: Taming Imperfect Optical Flows for Consistent Video-to-Video Synthesis

論文の概要: FlowVid: Taming Imperfect Optical Flows for Consistent Video-to-Video Synthesis

arxiv url: http://arxiv.org/abs/2312.17681v1
Date: Fri, 29 Dec 2023 16:57:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-02 08:50:23.982262
Title: FlowVid: Taming Imperfect Optical Flows for Consistent Video-to-Video Synthesis
Title（参考訳）: FlowVid: 一貫性のあるビデオ-ビデオ合成のための不完全な光フローのモデリング
Authors: Feng Liang, Bichen Wu, Jialiang Wang, Licheng Yu, Kunpeng Li, Yinan Zhao, Ishan Misra, Jia-Bin Huang, Peizhao Zhang, Peter Vajda, Diana Marculescu
Abstract要約: 拡散モデルはイメージ・ツー・イメージ(I2I)合成を変換し、現在はビデオに浸透している。本稿では,空間条件と時間的光フロー手がかりを併用した一貫したV2V合成フレームワークを提案する。
参考スコア（独自算出の注目度）: 66.2611385251157
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion models have transformed the image-to-image (I2I) synthesis and are now permeating into videos. However, the advancement of video-to-video (V2V) synthesis has been hampered by the challenge of maintaining temporal consistency across video frames. This paper proposes a consistent V2V synthesis framework by jointly leveraging spatial conditions and temporal optical flow clues within the source video. Contrary to prior methods that strictly adhere to optical flow, our approach harnesses its benefits while handling the imperfection in flow estimation. We encode the optical flow via warping from the first frame and serve it as a supplementary reference in the diffusion model. This enables our model for video synthesis by editing the first frame with any prevalent I2I models and then propagating edits to successive frames. Our V2V model, FlowVid, demonstrates remarkable properties: (1) Flexibility: FlowVid works seamlessly with existing I2I models, facilitating various modifications, including stylization, object swaps, and local edits. (2) Efficiency: Generation of a 4-second video with 30 FPS and 512x512 resolution takes only 1.5 minutes, which is 3.1x, 7.2x, and 10.5x faster than CoDeF, Rerender, and TokenFlow, respectively. (3) High-quality: In user studies, our FlowVid is preferred 45.7% of the time, outperforming CoDeF (3.5%), Rerender (10.2%), and TokenFlow (40.4%).
Abstract（参考訳）: 拡散モデルは画像から画像への合成を変換し、現在ではビデオに浸透している。しかし、ビデオフレーム間の時間的一貫性を維持するという課題により、V2V合成の進歩が妨げられている。本稿では,空間条件と時間的光フロー手がかりを併用した一貫したV2V合成フレームワークを提案する。光流に厳密に従属する従来の手法とは対照的に,本手法は流れ推定の不完全さを処理しながらその利点を生かしている。第1フレームからの反りによる光流れを符号化し、拡散モデルにおける補足参照として機能する。これにより,第1のフレームを任意の一般的なi2iモデルで編集し,編集を連続するフレームに伝達することにより,映像合成のためのモデルを実現する。柔軟性: FlowVidは既存のI2Iモデルとシームレスに動作し、スタイリゼーションやオブジェクトスワップ、ローカル編集など、さまざまな変更を容易にします。 2) 効率性: 30 FPS と 512 x512 の解像度を持つ 4 秒のビデオは、それぞれ CoDeF, Rerender, TokenFlow よりも3.1x, 7.2x, 10.5x の 1.5 分で生成される。 (3)高品質:私たちのFlowVidは45.7%の時間を好んでおり、CoDeF (3.5%)、Rerender (10.2%)、TokenFlow (40.4%)を上回っている。

関連論文リスト

LTX-Video: Realtime Video Latent Diffusion [4.7789714048042775]
LTX-Videoはトランスフォーマーベースの潜在拡散モデルである。 Video-VAEとDenoising Transformerをシームレスに統合する。 Nvidia H100 GPU上では、24fpsのビデオ768 atx512の解像度をわずか2秒で生成する。
論文参考訳（メタデータ） (2024-12-30T19:00:25Z)
FrameBridge: Improving Image-to-Video Generation with Bridge Models [23.19370431940568]
I2V(Image-to-Video)生成はビデオ合成に広く応用され,注目が集まっている。本稿では, FrameBridgeについて, 与えられた静止画像をビデオの先行画像とし, それらの間のトラクタブルブリッジモデルを確立する。本研究では,拡散型T2VモデルのFrameBridgeへの微調整効率を向上し,橋梁型I2Vモデルの合成品質を向上させる2つの手法,SNR- Fine-tuning (SAF) とNeural priorを提案する。
論文参考訳（メタデータ） (2024-10-20T12:10:24Z)
Looking Backward: Streaming Video-to-Video Translation with Feature Banks [65.46145157488344]
StreamV2Vは、ユーザプロンプトによるリアルタイムストリーミングビデオ変換(V2V)を実現する拡散モデルである。 1つのA100 GPU上で20 FPSを実行することができ、FlowVid、CoDeF、Rerender、TokenFlowよりも15x、46x、108x、158x高速である。
論文参考訳（メタデータ） (2024-05-24T17:53:06Z)
Fairy: Fast Parallelized Instruction-Guided Video-to-Video Synthesis [51.44526084095757]
画像編集拡散モデルのミニマリストでありながらロバストな適応であるFairyを導入し,映像編集用として拡張する。提案手法は,フレーム間の拡散特性を暗黙的に伝播させる機構であるアンカーベースクロスフレームアテンションの概念に重点を置いている。 1000個のサンプルを含む総合的なユーザスタディは、我々のアプローチが優れた品質を提供し、確定的に確立された方法よりも優れた結果をもたらすことを確認します。
論文参考訳（メタデータ） (2023-12-20T01:49:47Z)
FusionFrames: Efficient Architectural Aspects for Text-to-Video Generation Pipeline [4.295130967329365]
本稿では,テキスト・ツー・イメージ拡散モデルに基づく2段階の遅延拡散テキスト・ビデオ生成アーキテクチャを提案する。本モデルの設計は,他のマスクフレーム手法と比較して計算コストを大幅に削減する。我々は,MoVQに基づくビデオデコーディング方式の異なる構成を評価し,一貫性を改善し,PSNR,SSIM,MSE,LPIPSのスコアを向上させる。
論文参考訳（メタデータ） (2023-11-22T00:26:15Z)
MoVideo: Motion-Aware Video Generation with Diffusion Models [97.03352319694795]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。 MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文参考訳（メタデータ） (2023-11-19T13:36:03Z)
I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models [54.99771394322512]
ビデオ合成は拡散モデルの急速な発展の恩恵を受け、近年顕著な進歩を遂げている。意味的正確性、明快さ、連続性-時間的連続性という観点ではまだ遭遇に挑戦する。これら2つの要素を分離することでモデル性能を向上させるカスケードI2VGen-XL手法を提案する。 I2VGen-XLは、生成したビデオの意味的精度、詳細の連続性、明快さを同時に向上させることができる。
論文参考訳（メタデータ） (2023-11-07T17:16:06Z)
VideoFlow: Exploiting Temporal Cues for Multi-frame Optical Flow Estimation [61.660040308290796]
VideoFlowはビデオのための新しい光フロー推定フレームワークである。まず、TRiフレーム光フロー(TROF)モジュールを提案し、3フレーム方式で中央フレームの双方向光フローを推定する。反復流量推定精細化により、個々のTROFに融合した情報をMOPを介して全シーケンスに伝播することができる。
論文参考訳（メタデータ） (2023-03-15T03:14:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。