Fugu-MT 論文翻訳(概要): High-Resolution Frame Interpolation with Patch-based Cascaded Diffusion

論文の概要: High-Resolution Frame Interpolation with Patch-based Cascaded Diffusion

arxiv url: http://arxiv.org/abs/2410.11838v2
Date: Fri, 18 Apr 2025 17:32:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-21 15:46:21.233514
Title: High-Resolution Frame Interpolation with Patch-based Cascaded Diffusion
Title（参考訳）: Patch-based Cascaded Diffusion を用いた高分解能フレーム補間
Authors: Junhwa Hur, Charles Herrmann, Saurabh Saxena, Janne Kontkanen, Wei-Sheng Lai, Yichang Shih, Michael Rubinstein, David J. Fleet, Deqing Sun,
Abstract要約: 本稿では,高分解能フレーム・ツー・フレーム処理のためのパッチベースのカスケード画素拡散モデルを提案する。 HIFIは、大域的なコンテキストを必要とする高解像度画像と複雑な繰り返しテクスチャに優れる。私たちは特に困難なケースに焦点を当てた新しいデータセットであるLaMoRを紹介します。
参考スコア（独自算出の注目度）: 44.52838839928787
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite the recent progress, existing frame interpolation methods still struggle with processing extremely high resolution input and handling challenging cases such as repetitive textures, thin objects, and large motion. To address these issues, we introduce a patch-based cascaded pixel diffusion model for high resolution frame interpolation, HIFI, that excels in these scenarios while achieving competitive performance on standard benchmarks. Cascades, which generate a series of images from low to high resolution, can help significantly with large or complex motion that require both global context for a coarse solution and detailed context for high resolution output. However, contrary to prior work on cascaded diffusion models which perform diffusion on increasingly large resolutions, we use a single model that always performs diffusion at the same resolution and upsamples by processing patches of the inputs and the prior solution. At inference time, this drastically reduces memory usage and allows a single model, solving both frame interpolation (base model's task) and spatial up-sampling, saving training cost as well. HIFI excels at high-resolution images and complex repeated textures that require global context, achieving comparable or state-of-the-art performance on various benchmarks (Vimeo, Xiph, X-Test, and SEPE-8K). We further introduce a new dataset, LaMoR, that focuses on particularly challenging cases, and HIFI significantly outperforms other baselines. Please visit our project page for video results: https://hifi-diffusion.github.io
Abstract（参考訳）: 近年の進歩にもかかわらず、既存のフレーム補間法は、非常に高解像度な入力処理や、繰り返しテクスチャ、薄い物体、大きな動きといった困難なケースの処理に苦慮している。これらの問題に対処するために,高解像度フレーム補間のためのパッチベースの画素拡散モデルHIFIを導入する。低解像度から高解像度の一連の画像を生成するカスケードは、粗い解のグローバルコンテキストと高解像度の出力の詳細なコンテキストの両方を必要とする大または複雑な動きに大きく貢献する。しかし、より大規模な解像度で拡散を行うカスケード拡散モデルに関する先行研究とは対照的に、入力と先行解のパッチを処理して、常に同じ解像度で拡散とアップサンプリングを行う単一のモデルを用いる。推論時に、これはメモリ使用量を劇的に削減し、フレーム補間(ベースモデルのタスク)と空間的アップサンプリングの両方を解決し、トレーニングコストの削減を可能にする。 HIFIは、さまざまなベンチマーク(Vimeo、Xiph、X-Test、SEPE-8K)で同等または最先端のパフォーマンスを達成し、グローバルなコンテキストを必要とする、高解像度の画像と複雑な繰り返しテクスチャに優れています。さらに、特に困難なケースに焦点を当てた新しいデータセットであるLaMoRを導入し、HIFIは他のベースラインよりも大幅に優れています。ビデオの結果はこちらのプロジェクトページを参照してほしい。

関連論文リスト

Self-Cascaded Diffusion Models for Arbitrary-Scale Image Super-Resolution [9.322053509028832]
任意スケール画像超解像のための自己カスケード拡散フレームワークCasArbiを提案する。座標誘導残差拡散モデルにより連続画像表現の学習が可能となる。私たちの実験では、CasArbiは知覚と歪みの両方のパフォーマンス指標において、先行技術よりも優れています。
論文参考訳（メタデータ） (2025-06-09T14:43:21Z)
VISION-XL: High Definition Video Inverse Problem Solver using Latent Image Diffusion Models [58.464465016269614]
本稿では,遅延画像拡散モデルを用いた高精細ビデオ逆問題の解法を提案する。提案手法は,NVIDIA 4090 GPUの1フレームあたり6秒未満でHD解像度の再構成を実現する。
論文参考訳（メタデータ） (2024-11-29T08:10:49Z)
Multimodal Instruction Tuning with Hybrid State Space Models [25.921044010033267]
長いコンテキストは、多モーダルな大言語モデルの認識と理解能力を高めるために不可欠である。本稿では,マルチモーダルアプリケーションにおける長時間のコンテキストを効率的に扱うために,ハイブリッドトランスフォーマー-MAMBAモデルを用いた新しい手法を提案する。本モデルでは,高解像度画像と高フレーム映像の推論効率を現行モデルに比べて約4倍向上させる。
論文参考訳（メタデータ） (2024-11-13T18:19:51Z)
HyperSpace: Hypernetworks for spacing-adaptive image segmentation [0.05958478403940788]
本稿では,ハイパーネットを用いたボクセル間隔のセグメンテーションモデルを提案する。当社のアプローチでは,画像のネイティブ解像度や,ハードウェアや時間制約に調整された解像度で,推論時に画像の処理が可能である。
論文参考訳（メタデータ） (2024-07-04T07:09:23Z)
DiffuseHigh: Training-free Progressive High-Resolution Image Synthesis through Structure Guidance [11.44012694656102]
テキストから画像への拡散モデルのような大規模生成モデルは、様々な領域で広く注目を集めている。既存の大規模拡散モデルでは、最大1K解像度の画像を生成できる。本稿では,高分解能画像の生成を導くために,生成した低分解能画像を完全に活用する新しいプログレッシブアプローチを提案する。
論文参考訳（メタデータ） (2024-06-26T16:10:31Z)
Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文参考訳（メタデータ） (2024-06-13T17:59:58Z)
Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文参考訳（メタデータ） (2024-06-12T01:12:53Z)
Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文参考訳（メタデータ） (2023-11-30T05:15:35Z)
HiDiffusion: Unlocking Higher-Resolution Creativity and Efficiency in Pretrained Diffusion Models [13.68666823175341]
HiDiffusionは、画像合成のためのチューニング不要な高解像度フレームワークである。 RAU-Netはオブジェクト重複を解決するために特徴マップサイズを動的に調整する。 MSW-MSAは、計算量を減らすために最適化されたウィンドウアテンションを利用する。
論文参考訳（メタデータ） (2023-11-29T11:01:38Z)
Matryoshka Diffusion Models [38.26966802461602]
拡散モデルは、高品質の画像やビデオを生成するデファクトアプローチである。本稿では,高解像度画像とビデオ合成のためのエンドツーエンドフレームワークであるMatryoshka Diffusion Modelsを紹介する。本稿では,クラス条件付き画像生成,高解像度テキスト・ツー・イメージ,テキスト・ツー・ビデオアプリケーションなど,様々なベンチマークにおけるアプローチの有効性を示す。
論文参考訳（メタデータ） (2023-10-23T17:20:01Z)
Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。本稿では,階層型統合拡散モデル(HI-Diff)を提案する。人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文参考訳（メタデータ） (2023-05-22T12:18:20Z)
Any-resolution Training for High-resolution Image Synthesis [55.19874755679901]
生成モデルは、様々な大きさの自然画像であっても、一定の解像度で動作します。すべてのピクセルが重要であり、そのネイティブ解像度で収集された可変サイズのイメージを持つデータセットを作成する、と我々は主張する。ランダムなスケールでパッチをサンプリングし、可変出力解像度で新しいジェネレータを訓練するプロセスである。
論文参考訳（メタデータ） (2022-04-14T17:59:31Z)
InfinityGAN: Towards Infinite-Resolution Image Synthesis [92.40782797030977]
任意の解像度画像を生成するinfinityganを提案する。少ない計算資源でパッチバイパッチをシームレスに訓練し、推論する方法を示す。
論文参考訳（メタデータ） (2021-04-08T17:59:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。