論文の概要: Video Diffusion Models with Local-Global Context Guidance
- arxiv url: http://arxiv.org/abs/2306.02562v1
- Date: Mon, 5 Jun 2023 03:32:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 17:10:40.210506
- Title: Video Diffusion Models with Local-Global Context Guidance
- Title(参考訳): 局所的文脈誘導によるビデオ拡散モデル
- Authors: Siyuan Yang, Lu Zhang, Yu Liu, Zhizhuo Jiang and You He
- Abstract要約: 高品質なビデオを生成するためのマルチパーセプション条件を抽出するローカル・グローバル・コンテキスト誘導ビデオ拡散モデル(LGC-VD)を提案する。
提案手法は, 映像予測, 非条件推論, 映像生成において, 良好な性能が得られることを示す。
- 参考スコア(独自算出の注目度): 17.040535240422088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have emerged as a powerful paradigm in video synthesis tasks
including prediction, generation, and interpolation. Due to the limitation of
the computational budget, existing methods usually implement conditional
diffusion models with an autoregressive inference pipeline, in which the future
fragment is predicted based on the distribution of adjacent past frames.
However, only the conditions from a few previous frames can't capture the
global temporal coherence, leading to inconsistent or even outrageous results
in long-term video prediction. In this paper, we propose a Local-Global Context
guided Video Diffusion model (LGC-VD) to capture multi-perception conditions
for producing high-quality videos in both conditional/unconditional settings.
In LGC-VD, the UNet is implemented with stacked residual blocks with
self-attention units, avoiding the undesirable computational cost in 3D Conv.
We construct a local-global context guidance strategy to capture the
multi-perceptual embedding of the past fragment to boost the consistency of
future prediction. Furthermore, we propose a two-stage training strategy to
alleviate the effect of noisy frames for more stable predictions. Our
experiments demonstrate that the proposed method achieves favorable performance
on video prediction, interpolation, and unconditional video generation. We
release code at https://github.com/exisas/LGC-VD.
- Abstract(参考訳): 拡散モデルは、予測、生成、補間を含むビデオ合成タスクにおいて強力なパラダイムとして登場した。
計算予算の制限のため、既存の手法は通常、隣接する過去のフレームの分布に基づいて将来のフラグメントを予測する自己回帰推論パイプラインを備えた条件拡散モデルを実装している。
しかし、いくつかの前のフレームの条件だけが地球規模の時間的コヒーレンスを捉えることができないため、長期的なビデオ予測には一貫性のない、あるいは不条理な結果につながる。
本稿では,高品質な映像を条件付き・非条件の両方で生成するためのマルチパーセプション条件を抽出するローカル・グローバル・コンテキスト誘導ビデオ拡散モデル(LGC-VD)を提案する。
LGC-VD では、UNet は 3D Conv における望ましくない計算コストを回避するために、自己注意ユニットを積んだ残差ブロックで実装されている。
我々は,過去のフラグメントのマルチパーセプティブな埋め込みを捉え,将来予測の一貫性を高めるために,ローカル・グローバルなコンテキストガイダンス戦略を構築した。
さらに,より安定した予測のために,騒音フレームの効果を緩和する2段階学習戦略を提案する。
提案手法は,映像予測,補間,非条件映像生成において良好な性能を発揮することを示す。
コードをhttps://github.com/exisas/LGC-VDでリリースします。
関連論文リスト
- AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。
従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。
我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文 参考訳(メタデータ) (2024-06-10T17:02:08Z) - Zero-Shot Video Semantic Segmentation based on Pre-Trained Diffusion Models [96.97910688908956]
本稿では,事前学習した拡散モデルに基づくビデオセマンティック(VSS)の最初のゼロショット手法を提案する。
予め訓練された画像とビデオ拡散モデルに基づくVSSに適したフレームワークを提案する。
実験により,提案手法は既存のゼロショット画像セマンティックセグメンテーション手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-05-27T08:39:38Z) - Spatial Decomposition and Temporal Fusion based Inter Prediction for
Learned Video Compression [59.632286735304156]
学習ビデオ圧縮のための空間分解と時間融合に基づく相互予測を提案する。
SDDに基づく動きモデルと長時間の時間的融合により,提案した学習ビデオはより正確な相互予測コンテキストを得ることができる。
論文 参考訳(メタデータ) (2024-01-29T03:30:21Z) - Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding [108.79026216923984]
ビデオグラウンドイングは、入力テキストクエリに対応するビデオ内の時間セクションをローカライズすることを目的としている。
本稿では,現在のビデオグラウンドリング手法において,オープン語彙時空間ビデオグラウンドニングタスクを導入することにより,限界に対処する。
論文 参考訳(メタデータ) (2023-12-31T13:53:37Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Efficient Video Prediction via Sparsely Conditioned Flow Matching [24.32740918613266]
本稿では,遅延フローマッチングに基づく映像予測のための新しい生成モデルを提案する。
我々は、VidEo pRedictionのためのRandomフレーム条件付きフロー統合(Random frame conditioned flow Integration)または略してRIVER(Random frame conditioned flow Integration)と呼ぶ。
論文 参考訳(メタデータ) (2022-11-26T14:18:50Z) - A unified model for continuous conditional video prediction [14.685237010856953]
条件付きビデオ予測タスクは通常、タスク関連モデルによって解決される。
ほぼ全ての条件付きビデオ予測モデルは、離散的な予測しか達成できない。
本稿では,これら2つの問題を同時に扱う統一モデルを提案する。
論文 参考訳(メタデータ) (2022-10-11T22:26:59Z) - HARP: Autoregressive Latent Video Prediction with High-Fidelity Image
Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。
既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文 参考訳(メタデータ) (2022-09-15T08:41:57Z) - Masked Conditional Video Diffusion for Prediction, Generation, and
Interpolation [14.631523634811392]
Masked Conditional Video Diffusion (MCVD) はビデオ予測のための汎用フレームワークである。
私たちは、過去のフレームや将来のフレームをすべて無作為に、無作為に、独立してマスクする方法でモデルをトレーニングします。
提案手法は,1~12日で計算時間を計測し,標準的なビデオ予測ベンチマークにまたがってSOTA結果を生成する。
論文 参考訳(メタデータ) (2022-05-19T20:58:05Z) - Versatile Learned Video Compression [26.976302025254043]
本稿では,可能な全ての予測モードをサポートするために,一つのモデルを用いた多目的学習ビデオ圧縮(VLVC)フレームワークを提案する。
具体的には、多目的圧縮を実現するために、まず複数の3次元運動ベクトル場を適用した動き補償モジュールを構築する。
フロー予測モジュールは, ボクセルフローの伝送コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2021-11-05T10:50:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。