Fugu-MT 論文翻訳(概要): Fairy: Fast Parallelized Instruction-Guided Video-to-Video Synthesis

論文の概要: Fairy: Fast Parallelized Instruction-Guided Video-to-Video Synthesis

arxiv url: http://arxiv.org/abs/2312.13834v1
Date: Wed, 20 Dec 2023 01:49:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-22 14:54:21.319513
Title: Fairy: Fast Parallelized Instruction-Guided Video-to-Video Synthesis
Title（参考訳）: Fairy: 高速パラレル化インストラクションガイドによるビデオ合成
Authors: Bichen Wu, Ching-Yao Chuang, Xiaoyan Wang, Yichen Jia, Kapil Krishnakumar, Tong Xiao, Feng Liang, Licheng Yu, Peter Vajda
Abstract要約: 画像編集拡散モデルのミニマリストでありながらロバストな適応であるFairyを導入し,映像編集用として拡張する。提案手法は,フレーム間の拡散特性を暗黙的に伝播させる機構であるアンカーベースクロスフレームアテンションの概念に重点を置いている。 1000個のサンプルを含む総合的なユーザスタディは、我々のアプローチが優れた品質を提供し、確定的に確立された方法よりも優れた結果をもたらすことを確認します。
参考スコア（独自算出の注目度）: 51.44526084095757
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we introduce Fairy, a minimalist yet robust adaptation of image-editing diffusion models, enhancing them for video editing applications. Our approach centers on the concept of anchor-based cross-frame attention, a mechanism that implicitly propagates diffusion features across frames, ensuring superior temporal coherence and high-fidelity synthesis. Fairy not only addresses limitations of previous models, including memory and processing speed. It also improves temporal consistency through a unique data augmentation strategy. This strategy renders the model equivariant to affine transformations in both source and target images. Remarkably efficient, Fairy generates 120-frame 512x384 videos (4-second duration at 30 FPS) in just 14 seconds, outpacing prior works by at least 44x. A comprehensive user study, involving 1000 generated samples, confirms that our approach delivers superior quality, decisively outperforming established methods.
Abstract（参考訳）: 本稿では,映像編集拡散モデルの最小主義的かつロバストな適応であるfairyについて紹介する。提案手法は,フレーム間の拡散特性を暗黙的に伝播させ,時間的コヒーレンスと高忠実度合成を向上する機構であるアンカーベースクロスフレームアテンションの概念に焦点を当てる。 Fairyは、メモリや処理速度など、以前のモデルの制限に対処するだけではない。また、ユニークなデータ拡張戦略によって時間的一貫性も向上する。この戦略は、ソース画像とターゲット画像の両方でアフィン変換に同値なモデルを記述する。極めて効率的なのは、わずか14秒で120フレームの512x384ビデオ(30fpsで4秒持続)を生成できることだ。 1000個のサンプルを含む総合的なユーザスタディは、我々のアプローチが優れた品質を提供し、確定的に確立された方法を上回ることを確認します。

関連論文リスト

AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset [55.82208863521353]
合成データセットを用いたビデオ拡散モデルの高速化のための推論ステップを削減するために,AccVideoを提案する。本モデルでは,教師モデルに比べて生成速度が8.5倍向上した。従来の高速化手法と比較して,より高品質で解像度の高いビデオを生成することができる。
論文参考訳（メタデータ） (2025-03-25T08:52:07Z)
DiffuEraser: A Diffusion Model for Video Inpainting [13.292164408616257]
安定拡散に基づく映像インペイントモデルであるDiffuEraserを導入し,より詳細な情報とコヒーレントな構造でマスクされた領域を埋める。また,従来のモデルとDiffuEraserの両方の時間的受容領域を拡張し,ビデオ拡散モデルの時間的平滑化特性を活用して一貫性を高める。
論文参考訳（メタデータ） (2025-01-17T08:03:02Z)
Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文参考訳（メタデータ） (2024-11-23T12:26:52Z)
Fast and Memory-Efficient Video Diffusion Using Streamlined Inference [41.505829393818274]
現在のビデオ拡散モデルは、計算要求と高いピークメモリ使用量を示す。本稿では,映像拡散モデルの時間的・空間的特性を利用したストリーム線形推論を提案する。我々のアプローチはピークメモリと計算オーバーヘッドを大幅に削減し、単一のコンシューマGPU上で高品質なビデオを生成することができる。
論文参考訳（メタデータ） (2024-11-02T07:52:18Z)
ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文参考訳（メタデータ） (2024-10-08T03:01:54Z)
Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文参考訳（メタデータ） (2023-12-11T18:54:52Z)
AdaDiff: Adaptive Step Selection for Fast Diffusion Models [82.78899138400435]
我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計された軽量フレームワークであるAdaDiffを紹介します。 AdaDiffはポリシーメソッドを使用して最適化され、慎重に設計された報酬関数を最大化する。我々は3つの画像生成と2つのビデオ生成ベンチマークの実験を行い、本手法がベースラインと同じような視覚的品質を実現することを示す。
論文参考訳（メタデータ） (2023-11-24T11:20:38Z)
Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文参考訳（メタデータ） (2023-06-13T17:52:23Z)
Streaming Radiance Fields for 3D Video Synthesis [32.856346090347174]
本稿では,実世界のダイナミックシーンの新たなビュー合成のための,ストリーミングレージアンス場再構築のための明示的グリッドベース手法を提案する。挑戦的なビデオシーケンスの実験により、我々の手法は、フレーム当たり15秒のトレーニング速度を、競合的なレンダリング品質で達成できることが示されている。
論文参考訳（メタデータ） (2022-10-26T16:23:02Z)
OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文参考訳（メタデータ） (2022-01-12T09:50:38Z)
Robust High-Resolution Video Matting with Temporal Guidance [14.9739044990367]
我々は,新しい最先端性能を実現する,堅牢でリアルタイム,高解像度のヒューマンビデオマッチング手法を提案する。提案手法は従来手法よりもはるかに軽量であり,Nvidia GTX 1080Ti GPU上で4Kを76FPSで,HDを104FPSで処理することができる。
論文参考訳（メタデータ） (2021-08-25T23:48:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。