論文の概要: ASGDiffusion: Parallel High-Resolution Generation with Asynchronous Structure Guidance
- arxiv url: http://arxiv.org/abs/2412.06163v1
- Date: Mon, 09 Dec 2024 02:51:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:54:51.436962
- Title: ASGDiffusion: Parallel High-Resolution Generation with Asynchronous Structure Guidance
- Title(参考訳): ASG拡散:非同期構造誘導を用いた並列高分解能生成
- Authors: Yuming Li, Peidong Jia, Daiwei Hong, Yueru Jia, Qi She, Rui Zhao, Ming Lu, Shanghang Zhang,
- Abstract要約: トレーニングフリーの高分解能画像生成は、大規模な拡散モデルの訓練コストが高いため、大きな注目を集めている。
本稿では, Asynchronous Structure Guidance (ASG) を用いた並列HR生成のための事前学習拡散モデルを用いたASGDiffusionを提案する。
本手法は,パターン反復などの共通問題に効果的かつ効率的に対処し,最先端のHR生成を実現する。
- 参考スコア(独自算出の注目度): 30.190913570076525
- License:
- Abstract: Training-free high-resolution (HR) image generation has garnered significant attention due to the high costs of training large diffusion models. Most existing methods begin by reconstructing the overall structure and then proceed to refine the local details. Despite their advancements, they still face issues with repetitive patterns in HR image generation. Besides, HR generation with diffusion models incurs significant computational costs. Thus, parallel generation is essential for interactive applications. To solve the above limitations, we introduce a novel method named ASGDiffusion for parallel HR generation with Asynchronous Structure Guidance (ASG) using pre-trained diffusion models. To solve the pattern repetition problem of HR image generation, ASGDiffusion leverages the low-resolution (LR) noise weighted by the attention mask as the structure guidance for the denoising step to ensure semantic consistency. The proposed structure guidance can significantly alleviate the pattern repetition problem. To enable parallel generation, we further propose a parallelism strategy, which calculates the patch noises and structure guidance asynchronously. By leveraging multi-GPU parallel acceleration, we significantly accelerate generation speed and reduce memory usage per GPU. Extensive experiments demonstrate that our method effectively and efficiently addresses common issues like pattern repetition and achieves state-of-the-art HR generation.
- Abstract(参考訳): トレーニングフリーな高分解能画像生成は、大規模な拡散モデルの訓練コストが高いため、大きな注目を集めている。
既存の手法のほとんどは、全体構造を再構築し、その後、局所的な詳細を洗練することから始まる。
進歩にもかかわらず、HR画像生成の繰り返しパターンの問題に直面している。
さらに、拡散モデルによるHR生成は、かなりの計算コストを発生させる。
したがって、インタラクティブなアプリケーションには並列生成が不可欠である。
上記の制限を解決するために,事前学習した拡散モデルを用いた非同期構造誘導(ASG)を用いた並列HR生成のためのASGDiffusionという新しい手法を提案する。
HR画像生成のパターン繰り返し問題を解決するために、ASGDiffusionは、注目マスクが重み付けする低分解能(LR)ノイズをデノナイジングステップの構造ガイダンスとして利用し、セマンティック一貫性を確保する。
提案した構造ガイダンスはパターン反復問題を著しく緩和することができる。
並列生成を実現するために,パッチノイズと構造ガイダンスを非同期に計算する並列化戦略を提案する。
マルチGPU並列アクセラレーションを利用することで、生成速度を大幅に高速化し、GPU当たりのメモリ使用量を削減する。
大規模実験により,本手法はパターン反復などの共通問題に効果的かつ効率的に対処し,最先端のHR生成を実現することが実証された。
関連論文リスト
- DGTR: Distributed Gaussian Turbo-Reconstruction for Sparse-View Vast Scenes [81.56206845824572]
新規ビュー合成(NVS)アプローチは、広大なシーン再構築において重要な役割を担っている。
大規模な環境下では、復元の質が悪くなる場合が少なくない。
本稿では,スパース・ビュー・ワイド・シーンのための効率的なガウス再構成のための分散フレームワークであるDGTRを提案する。
論文 参考訳(メタデータ) (2024-11-19T07:51:44Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Diff-INR: Generative Regularization for Electrical Impedance Tomography [6.7667436349597985]
電気インピーダンストモグラフィ(EIT)は、境界測定から体内の導電率分布を再構成する。
EIT再構成は、正確な結果が複雑である不適切な非線形逆問題によって妨げられる。
拡散モデルを用いて生成正規化とインプリシットニューラル表現(INR)を組み合わせた新しい手法であるDiff-INRを提案する。
論文 参考訳(メタデータ) (2024-09-06T14:21:23Z) - One-step Generative Diffusion for Realistic Extreme Image Rescaling [47.89362819768323]
極端画像再スケーリングのためのワンステップイメージ再スケーリング拡散(OSIRDiff)と呼ばれる新しいフレームワークを提案する。
OSIRDiffは、事前訓練されたオートエンコーダの潜在空間で再スケーリング操作を実行する。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルによって学習された強力な自然画像の先行を効果的に活用する。
論文 参考訳(メタデータ) (2024-08-17T09:51:42Z) - Iterative Token Evaluation and Refinement for Real-World
Super-Resolution [77.74289677520508]
実世界の画像超解像(RWSR)は、低品質(LQ)画像が複雑で未同定の劣化を起こすため、長年にわたる問題である。
本稿では,RWSRのための反復的トークン評価・リファインメントフレームワークを提案する。
ITERはGAN(Generative Adversarial Networks)よりも訓練が容易であり,連続拡散モデルよりも効率的であることを示す。
論文 参考訳(メタデータ) (2023-12-09T17:07:32Z) - Motion-Guided Latent Diffusion for Temporally Consistent Real-world Video Super-resolution [15.197746480157651]
本稿では,事前学習した潜伏拡散モデルの強度を利用した実世界のVSRアルゴリズムを提案する。
我々は、LRビデオの時間的ダイナミクスを利用して、動作誘導損失で潜時サンプリング経路を最適化することにより拡散過程を導出する。
動作誘導潜在拡散に基づくVSRアルゴリズムは、実世界のVSRベンチマークデータセットの最先端技術よりも、知覚品質が大幅に向上する。
論文 参考訳(メタデータ) (2023-12-01T14:40:07Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Loop Unrolled Shallow Equilibrium Regularizer (LUSER) -- A
Memory-Efficient Inverse Problem Solver [26.87738024952936]
逆問題では、潜在的に破損し、しばしば不適切な測定結果から、いくつかの基本的な関心のシグナルを再構築することを目的としている。
浅い平衡正規化器(L)を用いたLUアルゴリズムを提案する。
これらの暗黙のモデルは、より深い畳み込みネットワークと同じくらい表現力があるが、トレーニング中にはるかにメモリ効率が良い。
論文 参考訳(メタデータ) (2022-10-10T19:50:37Z) - Denoising Diffusion Restoration Models [110.1244240726802]
Denoising Diffusion Restoration Models (DDRM) は効率的で教師なしの後方サンプリング手法である。
DDRMの汎用性を、超高解像度、デブロアリング、インペイント、カラー化のためにいくつかの画像データセットに示す。
論文 参考訳(メタデータ) (2022-01-27T20:19:07Z) - Phase Retrieval using Expectation Consistent Signal Recovery Algorithm
based on Hypernetwork [73.94896986868146]
位相検索は現代の計算イメージングシステムにおいて重要な要素である。
近年のディープラーニングの進歩は、堅牢で高速なPRの新たな可能性を開いた。
我々は、既存の制限を克服するために、深層展開のための新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2021-01-12T08:36:23Z) - Deep Generative Adversarial Residual Convolutional Networks for
Real-World Super-Resolution [31.934084942626257]
我々は,超解像残差畳み込み生成共役ネットワーク(SRResCGAN)を提案する。
これは、生成したLRドメインからHRドメインの画素単位の監督でモデルを逆トレーニングすることで、現実世界の劣化設定に従う。
提案するネットワークは,画像の高精細化と凸最適化によるエネルギーベース目的関数の最小化により,残差学習を利用する。
論文 参考訳(メタデータ) (2020-05-03T00:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。