論文の概要: Taming Latent Diffusion Models to See in the Dark
- arxiv url: http://arxiv.org/abs/2312.01027v2
- Date: Sun, 10 Dec 2023 14:09:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 01:04:10.213605
- Title: Taming Latent Diffusion Models to See in the Dark
- Title(参考訳): 暗く見えるように潜伏拡散モデルを改ざんする
- Authors: Qiang Wen, Yazhou Xing and Qifeng Chen
- Abstract要約: LDM-SIDは,提案するテーピングモジュールの集合を凍結した事前学習拡散モデルに挿入し,生成過程を制御することを目的としている。
入力されたRAW画像に2次元離散ウェーブレット変換を適用し、LLIEタスクを低周波コンテンツ生成と高周波ディテールメンテナンスという2つの重要な部分に分割する。
- 参考スコア(独自算出の注目度): 65.6004750218506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enhancing a low-light noisy RAW image into a well-exposed and clean sRGB
image is a significant challenge in computational photography. Due to the
limitation of large-scale paired data, prior approaches have difficulty in
recovering fine details and true colors in extremely low-light regions.
Meanwhile, recent advancements in generative diffusion models have shown
promising generating capabilities, which inspires this work to explore
generative priors from a diffusion model trained on a large-scale open-domain
dataset to benefit the low-light image enhancement (LLIE) task. Based on this
intention, we propose a novel diffusion-model-based LLIE method, dubbed
LDM-SID. LDM-SID aims at inserting a set of proposed taming modules into a
frozen pre-trained diffusion model to steer its generating process.
Specifically, the taming module fed with low-light information serves to output
a pair of affine transformation parameters to modulate the intermediate feature
in the diffusion model. Additionally, based on the observation of dedicated
generative priors across different portions of the diffusion model, we propose
to apply 2D discrete wavelet transforms on the input RAW image, resulting in
dividing the LLIE task into two essential parts: low-frequency content
generation and high-frequency detail maintenance. This enables us to skillfully
tame the diffusion model for optimized structural generation and detail
enhancement. Extensive experiments demonstrate the proposed method not only
achieves state-of-the-art performance in quantitative evaluations but also
shows significant superiority in visual comparisons. These findings highlight
the effectiveness of leveraging a pre-trained diffusion model as a generative
prior to the LLIE task. The project page is available at
https://csqiangwen.github.io/projects/ldm-sid/
- Abstract(参考訳): 低照度RAW画像をよく露出したクリーンなsRGB画像に拡張することは、計算写真において重要な課題である。
大規模なペアリングデータの制限のため、従来の手法では極低照度領域の細部や真の色を復元することが困難であった。
一方, 生成拡散モデルの最近の進歩は, 低照度画像強調(LLIE)タスクの恩恵を受けるために, 大規模オープンドメインデータセット上で訓練された拡散モデルから生成先行を探索するための有望な生成能力を示している。
そこで本研究では, LDM-SIDと呼ばれる拡散モデルに基づくLLIE法を提案する。
LDM-SIDは,提案するテーピングモジュールの集合を凍結した事前学習拡散モデルに挿入し,生成過程を制御することを目的としている。
具体的には、低照度情報によって供給されるテーミングモジュールは、拡散モデルにおける中間的特徴を変調するために、一対のアフィン変換パラメータを出力する。
さらに,拡散モデルの異なる部分にわたる専用生成前兆の観測に基づいて,入力生画像に2次元離散ウェーブレット変換を適用し,llieタスクを低周波コンテンツ生成と高周波細部維持という2つの必須部分に分割することを提案する。
これにより、構造生成と詳細な拡張を最適化するために拡散モデルを巧みに調整することができる。
提案手法は, 定量的評価において最先端の性能を得るだけでなく, 視覚的比較において有意な優位性を示す。
これらの結果から,LLIEタスクに先立って,事前学習した拡散モデルを利用した生成モデルの有効性が示唆された。
プロジェクトページはhttps://csqiangwen.github.io/projects/ldm-sid/にある。
関連論文リスト
- Diffusion Models Trained with Large Data Are Transferable Visual Models [51.9937114613558]
そこで本研究では,適度な量の目標データを用いて,基本的な視覚知覚タスクにおいて顕著な伝達性能を実現することができることを示す。
結果は、様々なタスクや実世界のデータセットにまたがる拡散モデルのバックボーンの顕著な転送可能性を示している。
論文 参考訳(メタデータ) (2024-03-10T04:23:24Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - LLDiffusion: Learning Degradation Representations in Diffusion Models
for Low-Light Image Enhancement [118.83316133601319]
現在の低照度画像強調(LLIE)の深層学習法は、通常、ペア化されたデータから学んだピクセルワイドマッピングに依存している。
本稿では,拡散モデルを用いたLLIEの劣化認識学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-27T07:22:51Z) - ExposureDiffusion: Learning to Expose for Low-light Image Enhancement [87.08496758469835]
この研究は、拡散モデルと物理ベースの露光モデルとをシームレスに統合することで、この問題に対処する。
提案手法は,バニラ拡散モデルと比較して性能が大幅に向上し,推論時間を短縮する。
提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。
論文 参考訳(メタデータ) (2023-07-15T04:48:35Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Object-Centric Slot Diffusion [30.722428924152382]
本稿では,2つの目的を果たす新しいモデルであるLatent Slot Diffusion(LSD)を紹介する。
我々はLSDが最先端のトランスフォーマーベースのデコーダよりも大幅に優れていることを示した。
また,LSDにおける事前学習拡散モデルの統合について予備的検討を行った。
論文 参考訳(メタデータ) (2023-03-20T02:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。