Fugu-MT 論文翻訳(概要): ASGDiffusion: Parallel High-Resolution Generation with Asynchronous Structure Guidance

論文の概要: ASGDiffusion: Parallel High-Resolution Generation with Asynchronous Structure Guidance

arxiv url: http://arxiv.org/abs/2412.06163v1
Date: Mon, 09 Dec 2024 02:51:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 23:11:44.197822
Title: ASGDiffusion: Parallel High-Resolution Generation with Asynchronous Structure Guidance
Title（参考訳）: ASG拡散:非同期構造誘導を用いた並列高分解能生成
Authors: Yuming Li, Peidong Jia, Daiwei Hong, Yueru Jia, Qi She, Rui Zhao, Ming Lu, Shanghang Zhang,
Abstract要約: トレーニングフリーの高分解能画像生成は、大規模な拡散モデルの訓練コストが高いため、大きな注目を集めている。本稿では, Asynchronous Structure Guidance (ASG) を用いた並列HR生成のための事前学習拡散モデルを用いたASGDiffusionを提案する。本手法は,パターン反復などの共通問題に効果的かつ効率的に対処し,最先端のHR生成を実現する。
参考スコア（独自算出の注目度）: 30.190913570076525
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Training-free high-resolution (HR) image generation has garnered significant attention due to the high costs of training large diffusion models. Most existing methods begin by reconstructing the overall structure and then proceed to refine the local details. Despite their advancements, they still face issues with repetitive patterns in HR image generation. Besides, HR generation with diffusion models incurs significant computational costs. Thus, parallel generation is essential for interactive applications. To solve the above limitations, we introduce a novel method named ASGDiffusion for parallel HR generation with Asynchronous Structure Guidance (ASG) using pre-trained diffusion models. To solve the pattern repetition problem of HR image generation, ASGDiffusion leverages the low-resolution (LR) noise weighted by the attention mask as the structure guidance for the denoising step to ensure semantic consistency. The proposed structure guidance can significantly alleviate the pattern repetition problem. To enable parallel generation, we further propose a parallelism strategy, which calculates the patch noises and structure guidance asynchronously. By leveraging multi-GPU parallel acceleration, we significantly accelerate generation speed and reduce memory usage per GPU. Extensive experiments demonstrate that our method effectively and efficiently addresses common issues like pattern repetition and achieves state-of-the-art HR generation.
Abstract（参考訳）: トレーニングフリーな高分解能画像生成は、大規模な拡散モデルの訓練コストが高いため、大きな注目を集めている。既存の手法のほとんどは、全体構造を再構築し、その後、局所的な詳細を洗練することから始まる。進歩にもかかわらず、HR画像生成の繰り返しパターンの問題に直面している。さらに、拡散モデルによるHR生成は、かなりの計算コストを発生させる。したがって、インタラクティブなアプリケーションには並列生成が不可欠である。上記の制限を解決するために,事前学習した拡散モデルを用いた非同期構造誘導(ASG)を用いた並列HR生成のためのASGDiffusionという新しい手法を提案する。 HR画像生成のパターン繰り返し問題を解決するために、ASGDiffusionは、注目マスクが重み付けする低分解能(LR)ノイズをデノナイジングステップの構造ガイダンスとして利用し、セマンティック一貫性を確保する。提案した構造ガイダンスはパターン反復問題を著しく緩和することができる。並列生成を実現するために,パッチノイズと構造ガイダンスを非同期に計算する並列化戦略を提案する。マルチGPU並列アクセラレーションを利用することで、生成速度を大幅に高速化し、GPU当たりのメモリ使用量を削減する。大規模実験により,本手法はパターン反復などの共通問題に効果的かつ効率的に対処し,最先端のHR生成を実現することが実証された。

関連論文リスト

Causal Autoregressive Diffusion Language Model [70.7353007255797]
CARDは厳密な因果注意マスク内の拡散過程を再構成し、単一の前方通過で密集した1対1の監視を可能にする。我々の結果は,CARDが並列生成のレイテンシの利点を解放しつつ,ARMレベルのデータ効率を実現することを示す。
論文参考訳（メタデータ） (2026-01-29T17:38:29Z)
GriDiT: Factorized Grid-Based Diffusion for Efficient Long Image Sequence Generation [77.13582457917418]
サブサンプルフレームからなる格子画像にのみ依存する生成モデルを訓練する。本研究では,Diffusion Transformer (DiT) の強い自己アテンション機構を用いて,フレーム間の相関関係を捉えることで,画像系列を生成することを学ぶ。我々の手法は、データセット間で、品質および推論速度(少なくとも2倍の速さ)において、一貫してSoTAを上回ります。
論文参考訳（メタデータ） (2025-12-24T16:46:04Z)
Uniform Discrete Diffusion with Metric Path for Video Generation [103.86033350602908]
連続空間ビデオ生成は急速に進歩し、離散的なアプローチはエラーの蓄積と長時間の矛盾により遅れている。我々は、拡張性のあるビデオ生成のための連続的なアプローチでギャップを埋める強力なフレームワークであるUniform Generative ModelingとUniform pAth(URSA)を提案する。 URSAは既存の離散的手法を一貫して上回り、最先端の連続拡散法に匹敵する性能を達成する。
論文参考訳（メタデータ） (2025-10-28T17:59:57Z)
STADI: Fine-Grained Step-Patch Diffusion Parallelism for Heterogeneous GPUs [14.137795556562686]
本稿では,拡散モデル推論を高速化する新しいフレームワークであるspatio-Temporal Adaptive Diffusion Inference (STADI)を紹介する。コアとなるハイブリッドスケジューラは、時間次元と空間次元の両方にわたってきめ細かい並列性をオーケストレーションする。提案手法は,エンド・ツー・エンドの推論遅延を最大45%削減し,異種GPUの資源利用を著しく改善する。
論文参考訳（メタデータ） (2025-09-05T00:25:40Z)
Self-Reflective Reinforcement Learning for Diffusion-based Image Reasoning Generation [24.247140501653547]
拡散モデルは最近、画像生成タスクにおいて例外的な性能を示した。本稿では,拡散モデルに対する自己回帰RLアルゴリズムであるSRRLを提案する。
論文参考訳（メタデータ） (2025-05-28T14:37:21Z)
Fast Autoregressive Models for Continuous Latent Generation [49.079819389916764]
自己回帰モデルは、特にNLPにおいて、シーケンシャルなデータ生成において顕著な成功を収めている。最近の研究で、マスク付き自己回帰モデル(MAR)は拡散ヘッドを用いて連続空間内のトーケン分布をモデル化することによって量子化をバイパスする。本稿では,MARの拡散ヘッドを軽量ショートカットヘッドに置き換える新しいフレームワークであるFast AutoRegressive Model (FAR)を提案する。
論文参考訳（メタデータ） (2025-04-24T13:57:08Z)
Unifying Autoregressive and Diffusion-Based Sequence Generation [2.3923884480793673]
本稿では,拡散に基づく系列生成モデルの拡張について述べる。個別のトークン位置に異なるノイズスケジュールを割り当てるハイパースケジューリングを導入する。第2に,吸収過程と一様過程の間に介在する2つのハイブリッドトークン単位のノイズ発生過程を提案し,過去の誤りを解消する。
論文参考訳（メタデータ） (2025-04-08T20:32:10Z)
DGTR: Distributed Gaussian Turbo-Reconstruction for Sparse-View Vast Scenes [81.56206845824572]
新規ビュー合成(NVS)アプローチは、広大なシーン再構築において重要な役割を担っている。大規模な環境下では、復元の質が悪くなる場合が少なくない。本稿では,スパース・ビュー・ワイド・シーンのための効率的なガウス再構成のための分散フレームワークであるDGTRを提案する。
論文参考訳（メタデータ） (2024-11-19T07:51:44Z)
MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。 MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文参考訳（メタデータ） (2024-10-14T17:57:18Z)
Edge-preserving noise for diffusion models [4.435514696080208]
既存の等方性モデルに対して一般化した新しいエッジ保存拡散モデルを提案する。モデルの生成過程はより高速に収束し, 対象の分布とより密に一致していることを示す。我々のエッジ保存拡散プロセスは、非条件画像生成における最先端のベースラインを一貫して上回る。
論文参考訳（メタデータ） (2024-10-02T13:29:52Z)
Diff-INR: Generative Regularization for Electrical Impedance Tomography [6.7667436349597985]
電気インピーダンストモグラフィ(EIT)は、境界測定から体内の導電率分布を再構成する。 EIT再構成は、正確な結果が複雑である不適切な非線形逆問題によって妨げられる。拡散モデルを用いて生成正規化とインプリシットニューラル表現(INR)を組み合わせた新しい手法であるDiff-INRを提案する。
論文参考訳（メタデータ） (2024-09-06T14:21:23Z)
One-step Generative Diffusion for Realistic Extreme Image Rescaling [47.89362819768323]
極端画像再スケーリングのためのワンステップイメージ再スケーリング拡散(OSIRDiff)と呼ばれる新しいフレームワークを提案する。 OSIRDiffは、事前訓練されたオートエンコーダの潜在空間で再スケーリング操作を実行する。これは、事前訓練されたテキスト・ツー・イメージ拡散モデルによって学習された強力な自然画像の先行を効果的に活用する。
論文参考訳（メタデータ） (2024-08-17T09:51:42Z)
Iterative Token Evaluation and Refinement for Real-World Super-Resolution [77.74289677520508]
実世界の画像超解像(RWSR)は、低品質(LQ)画像が複雑で未同定の劣化を起こすため、長年にわたる問題である。本稿では,RWSRのための反復的トークン評価・リファインメントフレームワークを提案する。 ITERはGAN(Generative Adversarial Networks)よりも訓練が容易であり,連続拡散モデルよりも効率的であることを示す。
論文参考訳（メタデータ） (2023-12-09T17:07:32Z)
Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。本稿では,階層型統合拡散モデル(HI-Diff)を提案する。人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文参考訳（メタデータ） (2023-05-22T12:18:20Z)
Loop Unrolled Shallow Equilibrium Regularizer (LUSER) -- A Memory-Efficient Inverse Problem Solver [26.87738024952936]
逆問題では、潜在的に破損し、しばしば不適切な測定結果から、いくつかの基本的な関心のシグナルを再構築することを目的としている。浅い平衡正規化器(L)を用いたLUアルゴリズムを提案する。これらの暗黙のモデルは、より深い畳み込みネットワークと同じくらい表現力があるが、トレーニング中にはるかにメモリ効率が良い。
論文参考訳（メタデータ） (2022-10-10T19:50:37Z)
Denoising Diffusion Restoration Models [110.1244240726802]
Denoising Diffusion Restoration Models (DDRM) は効率的で教師なしの後方サンプリング手法である。 DDRMの汎用性を、超高解像度、デブロアリング、インペイント、カラー化のためにいくつかの画像データセットに示す。
論文参考訳（メタデータ） (2022-01-27T20:19:07Z)
Phase Retrieval using Expectation Consistent Signal Recovery Algorithm based on Hypernetwork [73.94896986868146]
位相検索は現代の計算イメージングシステムにおいて重要な要素である。近年のディープラーニングの進歩は、堅牢で高速なPRの新たな可能性を開いた。我々は、既存の制限を克服するために、深層展開のための新しいフレームワークを開発する。
論文参考訳（メタデータ） (2021-01-12T08:36:23Z)
Deep Generative Adversarial Residual Convolutional Networks for Real-World Super-Resolution [31.934084942626257]
我々は,超解像残差畳み込み生成共役ネットワーク(SRResCGAN)を提案する。これは、生成したLRドメインからHRドメインの画素単位の監督でモデルを逆トレーニングすることで、現実世界の劣化設定に従う。提案するネットワークは,画像の高精細化と凸最適化によるエネルギーベース目的関数の最小化により,残差学習を利用する。
論文参考訳（メタデータ） (2020-05-03T00:12:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。