論文の概要: Ultra-High-Resolution Image Synthesis with Pyramid Diffusion Model
- arxiv url: http://arxiv.org/abs/2403.12915v1
- Date: Tue, 19 Mar 2024 17:12:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 13:14:11.382782
- Title: Ultra-High-Resolution Image Synthesis with Pyramid Diffusion Model
- Title(参考訳): ピラミッド拡散モデルによる超高分解能画像合成
- Authors: Jiajie Yang,
- Abstract要約: ピラミッド拡散モデル (PDM) は超高分解能画像合成のために設計された新しいアーキテクチャである。
PDMは、2つの新しいデータセットで実証された2K解像度の画像を初めて合成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the Pyramid Diffusion Model (PDM), a novel architecture designed for ultra-high-resolution image synthesis. PDM utilizes a pyramid latent representation, providing a broader design space that enables more flexible, structured, and efficient perceptual compression which enable AutoEncoder and Network of Diffusion to equip branches and deeper layers. To enhance PDM's capabilities for generative tasks, we propose the integration of Spatial-Channel Attention and Res-Skip Connection, along with the utilization of Spectral Norm and Decreasing Dropout Strategy for the Diffusion Network and AutoEncoder. In summary, PDM achieves the synthesis of images with a 2K resolution for the first time, demonstrated on two new datasets comprising images of sizes 2048x2048 pixels and 2048x1024 pixels respectively. We believe that this work offers an alternative approach to designing scalable image generative models, while also providing incremental reinforcement for existing frameworks.
- Abstract(参考訳): 超高分解能画像合成のための新しいアーキテクチャであるピラミッド拡散モデル(PDM)を導入する。
PDMはピラミッドラテント表現を使用し、より柔軟で構造化され、より効率的な知覚的圧縮を可能にし、AutoEncoderとNetwork of Diffusionがブランチとディープレイヤを装備できるようにする。
生成タスクにおけるPDMの能力を高めるため,Diffusion NetworkとAutoEncoderのスペクトルノルムとドロップアウト戦略の活用とともに,空間チャネル注意とRes-Skip Connectionの統合を提案する。
まとめると、PDMは2K解像度の画像の合成を初めて達成し、それぞれ2048x2048ピクセルと2048x1024ピクセルの2つの新しいデータセットで実証した。
この作業は、スケーラブルな画像生成モデルを設計するための代替のアプローチを提供すると同時に、既存のフレームワークに漸進的な強化を提供する、と私たちは信じています。
関連論文リスト
- Mask-adaptive Gated Convolution and Bi-directional Progressive Fusion
Network for Depth Completion [3.8558637038709622]
エンコーダ・デコーダ構造に基づく深度補完のための新しいモデルを提案する。
本モデルでは,マスク適応型Gated Convolutionアーキテクチャと双方向プログレッシブフュージョンモジュールの2つの重要なコンポーネントを紹介する。
深度マップの完成と既存手法の精度と信頼性に優れる性能を実現した。
論文 参考訳(メタデータ) (2024-01-15T02:58:06Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane
Networks [63.84589410872608]
本研究では,長期的空間的および時間的依存に対処する新しい非条件ビデオ生成モデルを提案する。
提案手法は計算複雑性をFLOPの測定値として2ドル程度削減する。
我々のモデルは高精細度ビデオクリップを256時間256ドルピクセルの解像度で合成でき、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - Matryoshka Diffusion Models [41.05745850547664]
拡散モデルは、高品質の画像やビデオを生成するデファクトアプローチである。
本稿では,高解像度画像とビデオ合成のためのエンドツーエンドフレームワークであるMatryoshka Diffusion Modelsを紹介する。
本稿では,クラス条件付き画像生成,高解像度テキスト・ツー・イメージ,テキスト・ツー・ビデオアプリケーションなど,様々なベンチマークにおけるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2023-10-23T17:20:01Z) - Dual Aggregation Transformer for Image Super-Resolution [92.41781921611646]
画像SRのための新しいトランスモデルDual Aggregation Transformerを提案する。
DATは、ブロック間およびブロック内二重方式で、空間次元とチャネル次元にまたがる特徴を集約する。
我々のDATは現在の手法を超越している。
論文 参考訳(メタデータ) (2023-08-07T07:39:39Z) - High Fidelity Image Synthesis With Deep VAEs In Latent Space [0.0]
階層的変動オートエンコーダ(VAE)を用いた高解像度マルチモーダルデータセットに高速でリアルな画像生成を提案する。
この2段階のセットアップでは、オートエンコーダがイメージをセマンティックな特徴に圧縮し、深いVAEでモデル化する。
我々は、BigGANに匹敵するImageNet-256データセット上で、FID9.34を達成する2段階アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-23T23:45:19Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - High-Resolution Image Synthesis with Latent Diffusion Models [14.786952412297808]
オートエンコーダ上での拡散モデルの訓練は、複雑性の低減と詳細保存の間のほぼ最適点に初めて到達することができる。
我々の潜伏拡散モデル(LDMs)は,様々なタスクにおける画像インペイントと高い競争性能の新たな技術を実現する。
論文 参考訳(メタデータ) (2021-12-20T18:55:25Z) - Model Inspired Autoencoder for Unsupervised Hyperspectral Image
Super-Resolution [25.878793557013207]
本稿では,低空間分解能HSIと高空間分解能マルチスペクトル像の融合を目的とした超高分解能画像(HSI)に焦点を当てた。
既存のディープラーニングベースのアプローチは、主に多数のラベル付きトレーニングサンプルに依存する教師付きである。
我々は、HSI超解像のためのモデルにインスパイアされたディープネットワークを教師なしで設計する最初の試みを行う。
論文 参考訳(メタデータ) (2021-10-22T05:15:16Z) - Improved Transformer for High-Resolution GANs [69.42469272015481]
この課題に対処するために、Transformerに2つの重要な要素を紹介します。
実験で提案したHiTは、条件のないImageNetの31.87と2.95のFIDスコアをそれぞれ128×128$とFFHQの256×256$で達成していることを示す。
論文 参考訳(メタデータ) (2021-06-14T17:39:49Z) - Hierarchical Amortized Training for Memory-efficient High Resolution 3D
GAN [52.851990439671475]
本稿では,高解像度な3D画像を生成することができる新しいエンドツーエンドGANアーキテクチャを提案する。
トレーニングと推論の異なる構成を使用することで、この目標を達成する。
3次元胸郭CTと脳MRIの実験により、我々のアプローチは画像生成における最先端技術より優れていることが示された。
論文 参考訳(メタデータ) (2020-08-05T02:33:04Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。