Fugu-MT 論文翻訳(概要): Ultra-High-Resolution Image Synthesis with Pyramid Diffusion Model

論文の概要: Ultra-High-Resolution Image Synthesis with Pyramid Diffusion Model

arxiv url: http://arxiv.org/abs/2403.12915v1
Date: Tue, 19 Mar 2024 17:12:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 13:14:11.382782
Title: Ultra-High-Resolution Image Synthesis with Pyramid Diffusion Model
Title（参考訳）: ピラミッド拡散モデルによる超高分解能画像合成
Authors: Jiajie Yang,
Abstract要約: ピラミッド拡散モデル (PDM) は超高分解能画像合成のために設計された新しいアーキテクチャである。 PDMは、2つの新しいデータセットで実証された2K解像度の画像を初めて合成する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce the Pyramid Diffusion Model (PDM), a novel architecture designed for ultra-high-resolution image synthesis. PDM utilizes a pyramid latent representation, providing a broader design space that enables more flexible, structured, and efficient perceptual compression which enable AutoEncoder and Network of Diffusion to equip branches and deeper layers. To enhance PDM's capabilities for generative tasks, we propose the integration of Spatial-Channel Attention and Res-Skip Connection, along with the utilization of Spectral Norm and Decreasing Dropout Strategy for the Diffusion Network and AutoEncoder. In summary, PDM achieves the synthesis of images with a 2K resolution for the first time, demonstrated on two new datasets comprising images of sizes 2048x2048 pixels and 2048x1024 pixels respectively. We believe that this work offers an alternative approach to designing scalable image generative models, while also providing incremental reinforcement for existing frameworks.
Abstract（参考訳）: 超高分解能画像合成のための新しいアーキテクチャであるピラミッド拡散モデル(PDM)を導入する。 PDMはピラミッドラテント表現を使用し、より柔軟で構造化され、より効率的な知覚的圧縮を可能にし、AutoEncoderとNetwork of Diffusionがブランチとディープレイヤを装備できるようにする。生成タスクにおけるPDMの能力を高めるため,Diffusion NetworkとAutoEncoderのスペクトルノルムとドロップアウト戦略の活用とともに,空間チャネル注意とRes-Skip Connectionの統合を提案する。まとめると、PDMは2K解像度の画像の合成を初めて達成し、それぞれ2048x2048ピクセルと2048x1024ピクセルの2つの新しいデータセットで実証した。この作業は、スケーラブルな画像生成モデルを設計するための代替のアプローチを提供すると同時に、既存のフレームワークに漸進的な強化を提供する、と私たちは信じています。

関連論文リスト

ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration [75.0053551643052]
本稿では、高解像度画像復元のための効率性、スケーラビリティ、長距離モデリングを向上する新しいフレームワークZipIRを紹介する。 ZipIRは画像32xを圧縮する高度に圧縮された潜在表現を使用し、空間トークンの数を効果的に削減する。 ZipIRは既存の拡散ベースの手法を超越し、高度に劣化した入力からの高解像度画像の復元において、未整合の速度と品質を提供する。
論文参考訳（メタデータ） (2025-04-11T14:49:52Z)
Prior-guided Hierarchical Harmonization Network for Efficient Image Dehazing [50.92820394852817]
画像復調のためのtextitPrior-textitguided textitHarmonization Network (PGH$2$Net) を提案する。 PGH$2$Netは、2つのモジュールタイプからなる効率的なエンコーダとデコーダを備えたUNetのようなアーキテクチャ上に構築されている。
論文参考訳（メタデータ） (2025-03-03T03:36:30Z)
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.57727062920458]
本稿では,非自己回帰型マスク画像モデリング(MIM)をSDXLのような最先端拡散モデルに匹敵するレベルまで高めるMeissonicを提案する。高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いる。我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文参考訳（メタデータ） (2024-10-10T17:59:17Z)
Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文参考訳（メタデータ） (2024-06-12T01:12:53Z)
Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する既存の二項化法では性能が著しく低下する。画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文参考訳（メタデータ） (2024-06-09T10:30:25Z)
DiM: Diffusion Mamba for Efficient High-Resolution Image Synthesis [56.849285913695184]
Diffusion Mamba (DiM) は高分解能画像合成のためのシーケンスモデルである。 DiMアーキテクチャは高解像度画像の推論時間効率を実現する。実験は、我々のDiMの有効性と効率を実証する。
論文参考訳（メタデータ） (2024-05-23T06:53:18Z)
Dual Aggregation Transformer for Image Super-Resolution [92.41781921611646]
画像SRのための新しいトランスモデルDual Aggregation Transformerを提案する。 DATは、ブロック間およびブロック内二重方式で、空間次元とチャネル次元にまたがる特徴を集約する。我々のDATは現在の手法を超越している。
論文参考訳（メタデータ） (2023-08-07T07:39:39Z)
High Fidelity Image Synthesis With Deep VAEs In Latent Space [0.0]
階層的変動オートエンコーダ(VAE)を用いた高解像度マルチモーダルデータセットに高速でリアルな画像生成を提案する。この2段階のセットアップでは、オートエンコーダがイメージをセマンティックな特徴に圧縮し、深いVAEでモデル化する。我々は、BigGANに匹敵するImageNet-256データセット上で、FID9.34を達成する2段階アプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-03-23T23:45:19Z)
High-Resolution Image Synthesis with Latent Diffusion Models [14.786952412297808]
オートエンコーダ上での拡散モデルの訓練は、複雑性の低減と詳細保存の間のほぼ最適点に初めて到達することができる。我々の潜伏拡散モデル(LDMs)は,様々なタスクにおける画像インペイントと高い競争性能の新たな技術を実現する。
論文参考訳（メタデータ） (2021-12-20T18:55:25Z)
Model Inspired Autoencoder for Unsupervised Hyperspectral Image Super-Resolution [25.878793557013207]
本稿では,低空間分解能HSIと高空間分解能マルチスペクトル像の融合を目的とした超高分解能画像(HSI)に焦点を当てた。既存のディープラーニングベースのアプローチは、主に多数のラベル付きトレーニングサンプルに依存する教師付きである。我々は、HSI超解像のためのモデルにインスパイアされたディープネットワークを教師なしで設計する最初の試みを行う。
論文参考訳（メタデータ） (2021-10-22T05:15:16Z)
Improved Transformer for High-Resolution GANs [69.42469272015481]
この課題に対処するために、Transformerに2つの重要な要素を紹介します。実験で提案したHiTは、条件のないImageNetの31.87と2.95のFIDスコアをそれぞれ128×128$とFFHQの256×256$で達成していることを示す。
論文参考訳（メタデータ） (2021-06-14T17:39:49Z)
Hierarchical Amortized Training for Memory-efficient High Resolution 3D GAN [52.851990439671475]
本稿では,高解像度な3D画像を生成することができる新しいエンドツーエンドGANアーキテクチャを提案する。トレーニングと推論の異なる構成を使用することで、この目標を達成する。 3次元胸郭CTと脳MRIの実験により、我々のアプローチは画像生成における最先端技術より優れていることが示された。
論文参考訳（メタデータ） (2020-08-05T02:33:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。