論文の概要: Frame Interpolation with Consecutive Brownian Bridge Diffusion
- arxiv url: http://arxiv.org/abs/2405.05953v7
- Date: Tue, 26 Nov 2024 23:18:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:23:32.782642
- Title: Frame Interpolation with Consecutive Brownian Bridge Diffusion
- Title(参考訳): 連続的ブラウン橋拡散によるフレーム補間
- Authors: Zonglin Lyu, Ming Li, Jianbo Jiao, Chen Chen,
- Abstract要約: ビデオフレーム補間(VFI)は、拡散に基づく条件付き画像生成問題としてVFIを定式化しようとする。
本稿では,Branian Bridge Diffusionを用いたフレーム補間法を提案する。
- 参考スコア(独自算出の注目度): 21.17973023413981
- License:
- Abstract: Recent work in Video Frame Interpolation (VFI) tries to formulate VFI as a diffusion-based conditional image generation problem, synthesizing the intermediate frame given a random noise and neighboring frames. Due to the relatively high resolution of videos, Latent Diffusion Models (LDMs) are employed as the conditional generation model, where the autoencoder compresses images into latent representations for diffusion and then reconstructs images from these latent representations. Such a formulation poses a crucial challenge: VFI expects that the output is deterministically equal to the ground truth intermediate frame, but LDMs randomly generate a diverse set of different images when the model runs multiple times. The reason for the diverse generation is that the cumulative variance (variance accumulated at each step of generation) of generated latent representations in LDMs is large. This makes the sampling trajectory random, resulting in diverse rather than deterministic generations. To address this problem, we propose our unique solution: Frame Interpolation with Consecutive Brownian Bridge Diffusion. Specifically, we propose consecutive Brownian Bridge diffusion that takes a deterministic initial value as input, resulting in a much smaller cumulative variance of generated latent representations. Our experiments suggest that our method can improve together with the improvement of the autoencoder and achieve state-of-the-art performance in VFI, leaving strong potential for further enhancement.
- Abstract(参考訳): ビデオフレーム補間(VFI)における最近の研究は、拡散に基づく条件付き画像生成問題としてVFIを定式化しようと試み、ランダムなノイズと隣接するフレームを与えられた中間フレームを合成している。
ビデオの解像度が比較的高いため、LDM(Latent Diffusion Models)が条件生成モデルとして使われ、オートエンコーダは画像をラテント表現に圧縮し、これらのラテント表現からイメージを再構成する。
このような定式化は重要な課題である: VFI は出力が決定論的に基底真理中間フレームに等しいことを期待するが、LCM はモデルが複数回実行されると、ランダムに異なる画像の集合を生成する。
多様な生成の理由は、LDMにおける生成された潜在表現の累積分散(生成の各ステップで蓄積される分散)が大きいからである。
これによりサンプリング軌道はランダムになり、決定論的世代よりも多様になる。
この問題に対処するため,我々は,Branian Bridge Diffusionを用いたフレーム補間法を提案する。
具体的には、決定論的初期値を入力とし、生成した潜在表現の累積分散をはるかに小さくする、連続的なブラウン橋拡散を提案する。
実験の結果,本手法はオートエンコーダの改良とともに改良され,VFIの最先端性能が向上し,さらなる向上の可能性が残っていることが示唆された。
関連論文リスト
- Latent Schrodinger Bridge: Prompting Latent Diffusion for Fast Unpaired Image-to-Image Translation [58.19676004192321]
ノイズからの画像生成とデータからの逆変換の両方を可能にする拡散モデル (DM) は、強力な未ペア画像対イメージ(I2I)翻訳アルゴリズムにインスピレーションを与えている。
我々は、最小輸送コストの分布間の微分方程式(SDE)であるSchrodinger Bridges (SBs) を用いてこの問題に取り組む。
この観測に触発されて,SB ODE を予め訓練した安定拡散により近似する潜在シュロディンガー橋 (LSB) を提案する。
提案アルゴリズムは,従来のDMのコストをわずかに抑えながら,教師なし環境での競合的I2I翻訳を実現していることを示す。
論文 参考訳(メタデータ) (2024-11-22T11:24:14Z) - Diffusion Bridge Implicit Models [25.213664260896103]
分散ブリッジモデル(DDBM)は、2つの任意の対の分布を補間するための拡散モデルの強力な変種である。
我々は,拡散モデルで確立されたレシピに動機づけられた,余分な訓練を伴わないDDBMの高速サンプリングの第一歩を踏み出す。
我々は、高次数値解法を誘導する、新しい、単純で洞察に富んだ常微分方程式(ODE)を誘導する。
論文 参考訳(メタデータ) (2024-05-24T19:08:30Z) - Denoising Diffusion Bridge Models [54.87947768074036]
拡散モデルは、プロセスを使用してデータにノイズをマッピングする強力な生成モデルである。
画像編集のような多くのアプリケーションでは、モデル入力はランダムノイズではない分布から来る。
本研究では, DDBM(Denoising Diffusion Bridge Models)を提案する。
論文 参考訳(メタデータ) (2023-09-29T03:24:24Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - A Variational Perspective on Solving Inverse Problems with Diffusion
Models [101.831766524264]
逆タスクは、データ上の後続分布を推測するものとして定式化することができる。
しかし、拡散過程の非線形的かつ反復的な性質が後部を引き付けるため、拡散モデルではこれは困難である。
そこで我々は,真の後続分布を近似する設計手法を提案する。
論文 参考訳(メタデータ) (2023-05-07T23:00:47Z) - DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion [144.9653045465908]
拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。
近赤外可視画像融合と医用画像融合で有望な融合が得られた。
論文 参考訳(メタデータ) (2023-03-13T04:06:42Z) - Deep Equilibrium Approaches to Diffusion Models [1.4275201654498746]
拡散に基づく生成モデルは高品質な画像を生成するのに極めて効果的である。
これらのモデルは通常、高忠実度画像を生成するために長いサンプリングチェーンを必要とする。
我々は、異なる観点からの拡散モデル、すなわち(深い)平衡(DEQ)固定点モデルについて考察する。
論文 参考訳(メタデータ) (2022-10-23T22:02:19Z) - Image Generation with Multimodal Priors using Denoising Diffusion
Probabilistic Models [54.1843419649895]
このタスクを達成するために生成モデルを使用する際の大きな課題は、すべてのモダリティと対応する出力を含むペアデータの欠如である。
本稿では,拡散確率的合成モデルに基づく多モデル先行画像生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-10T12:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。