論文の概要: High-Resolution Frame Interpolation with Patch-based Cascaded Diffusion
- arxiv url: http://arxiv.org/abs/2410.11838v1
- Date: Tue, 15 Oct 2024 17:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:01:59.535587
- Title: High-Resolution Frame Interpolation with Patch-based Cascaded Diffusion
- Title(参考訳): Patch-based Cascaded Diffusion を用いた高分解能フレーム補間
- Authors: Junhwa Hur, Charles Herrmann, Saurabh Saxena, Janne Kontkanen, Wei-Sheng Lai, Yichang Shih, Michael Rubinstein, David J. Fleet, Deqing Sun,
- Abstract要約: フレームのためのパッチベースのカスケード画素拡散モデルHiFIを提案する。
我々はHiFIがグローバルなコンテキストを必要とする高解像度で複雑なテクスチャを実現するのに有効であることを示す。
また、この手法は、推論時にメモリ使用量を劇的に削減し、また、テスト時に単一のモデルを使用することを可能にする。
- 参考スコア(独自算出の注目度): 44.52838839928787
- License:
- Abstract: Despite the recent progress, existing frame interpolation methods still struggle with processing extremely high resolution input and handling challenging cases such as repetitive textures, thin objects, and large motion. To address these issues, we introduce a patch-based cascaded pixel diffusion model for frame interpolation, HiFI, that excels in these scenarios while achieving competitive performance on standard benchmarks. Cascades, which generate a series of images from low- to high-resolution, can help significantly with large or complex motion that require both global context for a coarse solution and detailed context for high resolution output. However, contrary to prior work on cascaded diffusion models which perform diffusion on increasingly large resolutions, we use a single model that always performs diffusion at the same resolution and upsamples by processing patches of the inputs and the prior solution. We show that this technique drastically reduces memory usage at inference time and also allows us to use a single model at test time, solving both frame interpolation and spatial up-sampling, saving training cost. We show that HiFI helps significantly with high resolution and complex repeated textures that require global context. HiFI demonstrates comparable or beyond state-of-the-art performance on multiple benchmarks (Vimeo, Xiph, X-Test, SEPE-8K). On our newly introduced dataset that focuses on particularly challenging cases, HiFI also significantly outperforms other baselines on these cases. Please visit our project page for video results: https://hifi-diffusion.github.io
- Abstract(参考訳): 近年の進歩にもかかわらず、既存のフレーム補間法は、非常に高解像度な入力処理や、繰り返しテクスチャ、薄い物体、大きな動きといった困難なケースの処理に苦慮している。
これらの問題に対処するため, フレーム補間のためのパッチベースの画素拡散モデルHiFIを導入し, 標準ベンチマーク上での競合性能を実現した。
低解像度から高解像度までの一連の画像を生成するカスケードは、粗い解のグローバルコンテキストと高解像度の出力の詳細なコンテキストの両方を必要とする大きなあるいは複雑な動きに大きく寄与する。
しかし、より大規模な解像度で拡散を行うカスケード拡散モデルに関する先行研究とは対照的に、入力と先行解のパッチを処理して、常に同じ解像度で拡散とアップサンプリングを行う単一のモデルを用いる。
提案手法は,推定時のメモリ使用量を劇的に削減し,また,フレーム補間と空間的アップサンプリングの両方を解消し,トレーニングコストを削減できることを示す。
我々はHiFIがグローバルなコンテキストを必要とする高解像度で複雑なテクスチャを実現するのに有効であることを示す。
HiFIは、複数のベンチマーク(Vimeo、Xiph、X-Test、SEPE-8K)で、同等またはそれ以上のパフォーマンスを示す。
特に困難なケースに焦点を当てた新たに導入されたデータセットでは、HiFIはこれらのケースで他のベースラインよりも大幅に優れています。
ビデオの結果はこちらのプロジェクトページを参照してほしい。
関連論文リスト
- HyperSpace: Hypernetworks for spacing-adaptive image segmentation [0.05958478403940788]
本稿では,ハイパーネットを用いたボクセル間隔のセグメンテーションモデルを提案する。
当社のアプローチでは,画像のネイティブ解像度や,ハードウェアや時間制約に調整された解像度で,推論時に画像の処理が可能である。
論文 参考訳(メタデータ) (2024-07-04T07:09:23Z) - Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。
提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。
また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。
得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文 参考訳(メタデータ) (2024-06-12T01:12:53Z) - Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。
拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文 参考訳(メタデータ) (2023-11-30T05:15:35Z) - HiDiffusion: Unlocking Higher-Resolution Creativity and Efficiency in Pretrained Diffusion Models [13.68666823175341]
HiDiffusionは、画像合成のためのチューニング不要な高解像度フレームワークである。
RAU-Netはオブジェクト重複を解決するために特徴マップサイズを動的に調整する。
MSW-MSAは、計算量を減らすために最適化されたウィンドウアテンションを利用する。
論文 参考訳(メタデータ) (2023-11-29T11:01:38Z) - Matryoshka Diffusion Models [38.26966802461602]
拡散モデルは、高品質の画像やビデオを生成するデファクトアプローチである。
本稿では,高解像度画像とビデオ合成のためのエンドツーエンドフレームワークであるMatryoshka Diffusion Modelsを紹介する。
本稿では,クラス条件付き画像生成,高解像度テキスト・ツー・イメージ,テキスト・ツー・ビデオアプリケーションなど,様々なベンチマークにおけるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2023-10-23T17:20:01Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Any-resolution Training for High-resolution Image Synthesis [55.19874755679901]
生成モデルは、様々な大きさの自然画像であっても、一定の解像度で動作します。
すべてのピクセルが重要であり、そのネイティブ解像度で収集された可変サイズのイメージを持つデータセットを作成する、と我々は主張する。
ランダムなスケールでパッチをサンプリングし、可変出力解像度で新しいジェネレータを訓練するプロセスである。
論文 参考訳(メタデータ) (2022-04-14T17:59:31Z) - InfinityGAN: Towards Infinite-Resolution Image Synthesis [92.40782797030977]
任意の解像度画像を生成するinfinityganを提案する。
少ない計算資源でパッチバイパッチをシームレスに訓練し、推論する方法を示す。
論文 参考訳(メタデータ) (2021-04-08T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。