論文の概要: Latent Space Super-Resolution for Higher-Resolution Image Generation with Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.18446v1
- Date: Mon, 24 Mar 2025 08:50:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:35:58.567069
- Title: Latent Space Super-Resolution for Higher-Resolution Image Generation with Diffusion Models
- Title(参考訳): 拡散モデルを用いた高分解能画像生成のための潜時空間超解法
- Authors: Jinho Jeong, Sangmin Han, Jinwoo Kim, Seon Joo Kim,
- Abstract要約: 拡散モデルを用いた高分解能(1K)画像生成のための新しいフレームワークLSRNAを提案する。
LSRNAは、LSR(Latent Space Super-Resolution)とRNA(Rerea-wise Noise Addition)を組み合わせて、高周波の詳細を強化する。
- 参考スコア(独自算出の注目度): 24.33819371470651
- License:
- Abstract: In this paper, we propose LSRNA, a novel framework for higher-resolution (exceeding 1K) image generation using diffusion models by leveraging super-resolution directly in the latent space. Existing diffusion models struggle with scaling beyond their training resolutions, often leading to structural distortions or content repetition. Reference-based methods address the issues by upsampling a low-resolution reference to guide higher-resolution generation. However, they face significant challenges: upsampling in latent space often causes manifold deviation, which degrades output quality. On the other hand, upsampling in RGB space tends to produce overly smoothed outputs. To overcome these limitations, LSRNA combines Latent space Super-Resolution (LSR) for manifold alignment and Region-wise Noise Addition (RNA) to enhance high-frequency details. Our extensive experiments demonstrate that integrating LSRNA outperforms state-of-the-art reference-based methods across various resolutions and metrics, while showing the critical role of latent space upsampling in preserving detail and sharpness. The code is available at https://github.com/3587jjh/LSRNA.
- Abstract(参考訳): 本稿では,拡散モデルを用いた高分解能(1K)画像生成のための新しいフレームワークLSRNAを提案する。
既存の拡散モデルは、トレーニングの解決以上のスケーリングに苦しむため、しばしば構造的歪みやコンテンツ反復につながる。
参照ベースの手法は、高分解能生成を導くために低分解能参照をアップサンプリングすることでこの問題に対処する。
しかし、それらは重要な課題に直面している: 潜在空間におけるアップサンプリングはしばしば多様体の偏差を引き起こし、出力品質を低下させる。
一方、RGB空間におけるアップサンプリングは、過度に滑らかな出力を生成する傾向がある。
これらの制限を克服するため、LSRNAはLSR(Latent Space Super-Resolution)とRNA(Regional-wise Noise Addition)を組み合わせて高周波の詳細を強化する。
我々の広範囲な実験により、LSRNAの統合は、様々な解像度とメトリクスで最先端の参照ベースの手法よりも優れており、細部と鋭さの保存において、潜伏空間のアップサンプリングが重要な役割を担っていることが示されている。
コードはhttps://github.com/3587jh/LSRNAで公開されている。
関連論文リスト
- FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion [63.609399000712905]
スケールした解像度での推論は反復的なパターンと構造的歪みをもたらす。
これらの問題を解決するために組み合わせた2つの単純なモジュールを提案する。
我々の手法はファム拡散と呼ばれ、任意の潜在拡散モデルにシームレスに統合でき、追加の訓練を必要としない。
論文 参考訳(メタデータ) (2024-11-27T17:51:44Z) - FreqINR: Frequency Consistency for Implicit Neural Representation with Adaptive DCT Frequency Loss [5.349799154834945]
本稿では、新しい任意スケール超解像法であるFreqINR(FreqINR)について述べる。
トレーニングでは,適応離散コサイン変換周波数損失(adaptive Discrete Cosine Transform Frequency Loss,ADFL)を用いて,HR画像と地絡画像の周波数ギャップを最小化する。
推論の際には,低分解能(LR)画像と地軸画像のスペクトルコヒーレンスを維持するために受容場を拡張した。
論文 参考訳(メタデータ) (2024-08-25T03:53:17Z) - QMambaBSR: Burst Image Super-Resolution with Query State Space Model [55.56075874424194]
バースト超解像度は、複数のバースト低解像度フレームからサブピクセル情報を融合することにより、高画質でよりリッチな細部で高解像度の画像を再構成することを目的としている。
BusrtSRにおいて鍵となる課題は、高周波ノイズ障害を同時に抑制しつつ、ベースフレームの補完的なサブピクセルの詳細を抽出することである。
本稿では,Query State Space Model (QSSM) とAdaptive Up-Sampling Module (AdaUp) を組み合わせた新しいQuery Mamba Burst Super-Resolution (QMambaBSR) ネットワークを紹介する。
論文 参考訳(メタデータ) (2024-08-16T11:15:29Z) - Domain Transfer in Latent Space (DTLS) Wins on Image Super-Resolution --
a Non-Denoising Model [13.326634982790528]
本稿では,ガウス雑音から逃れる単純な手法を提案するが,画像超解像のための拡散モデルの基本構造を採用する。
実験結果から,本手法は最先端の大規模超解像モデルだけでなく,画像超解像に対する現在の拡散モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-11-04T09:57:50Z) - Image Super-resolution Via Latent Diffusion: A Sampling-space Mixture Of
Experts And Frequency-augmented Decoder Approach [17.693287544860638]
事前訓練されたテキスト画像モデルにより画像超解像の潜時拡散が改善した。
ラテントベースの手法では、特徴エンコーダを使用して画像を変換し、コンパクトなラテント空間でSR画像生成を実装する。
遅延空間から画素空間への周波数成分を増大させる周波数補償モジュールを提案する。
論文 参考訳(メタデータ) (2023-10-18T14:39:25Z) - ACDMSR: Accelerated Conditional Diffusion Models for Single Image
Super-Resolution [84.73658185158222]
本稿では,ACDMSRと呼ばれる拡散モデルに基づく超解像法を提案する。
提案手法は, 決定論的反復分解過程を通じて超解像を行うために, 標準拡散モデルに適応する。
提案手法は,低解像度画像に対してより視覚的に現実的な表現を生成し,現実的なシナリオにおけるその有効性を強調した。
論文 参考訳(メタデータ) (2023-07-03T06:49:04Z) - Implicit Diffusion Models for Continuous Super-Resolution [65.45848137914592]
本稿では,高忠実度連続画像超解像のためのインプリシティ拡散モデル(IDM)を提案する。
IDMは暗黙のニューラル表現とデノナイジング拡散モデルを統合されたエンドツーエンドフレームワークに統合する。
スケーリング係数は分解能を調節し、最終出力におけるLR情報と生成された特徴の比率を変調する。
論文 参考訳(メタデータ) (2023-03-29T07:02:20Z) - FS-NCSR: Increasing Diversity of the Super-Resolution Space via
Frequency Separation and Noise-Conditioned Normalizing Flow [12.58203406442855]
周波数分離とノイズ条件付けを用いた多種多様な高品質超解像出力を実現するFS-NCSRを提案する。
FS-NCSRは、以前のNTIRE 2021チャレンジの勝者であるNCSRと比較して、画像品質を著しく低下させることなく、多様性のスコアを著しく改善する。
論文 参考訳(メタデータ) (2022-04-20T06:44:56Z) - A Latent Encoder Coupled Generative Adversarial Network (LE-GAN) for
Efficient Hyperspectral Image Super-resolution [3.1023808510465627]
GAN(Generative Adversarial Network)は画像超解像のための効果的なディープラーニングフレームワークであることが証明されている。
モード崩壊の問題を緩和するため,本研究では,潜在エンコーダ(LE-GAN)と組み合わせた新しいGANモデルを提案する。
LE-GANは、生成したスペクトル空間の特徴を画像空間から潜在空間にマッピングし、生成したサンプルを正規化するための結合成分を生成する。
論文 参考訳(メタデータ) (2021-11-16T18:40:19Z) - Frequency Consistent Adaptation for Real World Super Resolution [64.91914552787668]
実シーンにスーパーリゾリューション(SR)法を適用する際に周波数領域の整合性を保証する新しい周波数一貫性適応(FCA)を提案する。
監視されていない画像から劣化カーネルを推定し、対応するLow-Resolution (LR)画像を生成する。
ドメイン一貫性のあるLR-HRペアに基づいて、容易に実装可能な畳み込みニューラルネットワーク(CNN)SRモデルを訓練する。
論文 参考訳(メタデータ) (2020-12-18T08:25:39Z) - PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of
Generative Models [77.32079593577821]
PULSE (Photo Upsampling via Latent Space Exploration) は、それまで文献になかった解像度で高解像度でリアルな画像を生成する。
本手法は, 従来よりも高分解能, スケールファクターの知覚品質において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-08T16:44:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。