論文の概要: DIFFNAT: Improving Diffusion Image Quality Using Natural Image
Statistics
- arxiv url: http://arxiv.org/abs/2311.09753v1
- Date: Thu, 16 Nov 2023 10:28:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 15:11:33.757907
- Title: DIFFNAT: Improving Diffusion Image Quality Using Natural Image
Statistics
- Title(参考訳): DIFFNAT:自然画像統計を用いた拡散画像の品質向上
- Authors: Aniket Roy, Maiterya Suin, Anshul Shah, Ketul Shah, Jiang Liu, Rama
Chellappa
- Abstract要約: そこで本研究では, 損失関数, viz., Kurtosis concentration (KC) の損失を総合的に保存する「自然性」を提案する。
我々のモチベーションは、自然画像の予測された硬変濃度特性に起因している。
生成した画像の「自然性」を維持するため,最高値と最低値とのギャップを小さくする。
- 参考スコア(独自算出の注目度): 39.457325373431836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have advanced generative AI significantly in terms of
editing and creating naturalistic images. However, efficiently improving
generated image quality is still of paramount interest. In this context, we
propose a generic "naturalness" preserving loss function, viz., kurtosis
concentration (KC) loss, which can be readily applied to any standard diffusion
model pipeline to elevate the image quality. Our motivation stems from the
projected kurtosis concentration property of natural images, which states that
natural images have nearly constant kurtosis values across different band-pass
versions of the image. To retain the "naturalness" of the generated images, we
enforce reducing the gap between the highest and lowest kurtosis values across
the band-pass versions (e.g., Discrete Wavelet Transform (DWT)) of images. Note
that our approach does not require any additional guidance like classifier or
classifier-free guidance to improve the image quality. We validate the proposed
approach for three diverse tasks, viz., (1) personalized few-shot finetuning
using text guidance, (2) unconditional image generation, and (3) image
super-resolution. Integrating the proposed KC loss has improved the perceptual
quality across all these tasks in terms of both FID, MUSIQ score, and user
evaluation.
- Abstract(参考訳): 拡散モデルは、自然主義的な画像の編集と作成に関して、高度な生成AIを持っている。
しかし、画像品質の効率向上は依然として最重要課題である。
この文脈では、画像品質を高めるため、任意の標準拡散モデルパイプラインに容易に適用可能な、一般的な「自然性」保存損失関数(viz., kurtosis concentration (KC)損失)を提案する。
我々のモチベーションは自然画像のクルトシス濃度特性を投影することに由来し、自然画像は様々なバンドパスバージョンにわたってクルトシス値がほぼ一定であることを示している。
生成された画像の「自然性」を維持するために、画像の帯域通過バージョン(例えば離散ウェーブレット変換(dwt))における最高値と最低値の間のギャップを小さくすることを強制する。
画像品質を改善するために分類器や分類器フリーガイダンスのような追加のガイダンスは不要である。
提案手法は,(1)テキストガイダンスを用いたパーソナライズされた少数ショットファインタニング,(2)非条件画像生成,(3)画像超解像の3つのタスクに対して検証する。
提案したKC損失を統合することで,FID,MUSIQスコア,ユーザ評価の両面で,これらのタスクの知覚品質が向上した。
関連論文リスト
- DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - ARNIQA: Learning Distortion Manifold for Image Quality Assessment [28.773037051085318]
No-Reference Image Quality Assessment (NR-IQA) は、高品質な参照画像を必要としない、人間の知覚に合わせて画像品質を測定する手法を開発することを目的としている。
本研究では、画像歪み多様体をモデル化し、本質的な表現を得るための自己教師型アプローチ ARNIQA を提案する。
論文 参考訳(メタデータ) (2023-10-20T17:22:25Z) - Real-World Image Variation by Aligning Diffusion Inversion Chain [53.772004619296794]
生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。
実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。
我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
論文 参考訳(メタデータ) (2023-05-30T04:09:47Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - Perceptual Image Restoration with High-Quality Priori and Degradation
Learning [28.93489249639681]
本モデルは,復元画像と劣化画像の類似度を測定するのに有効であることを示す。
同時修復・拡張フレームワークは,実世界の複雑な分解型によく一般化する。
論文 参考訳(メタデータ) (2021-03-04T13:19:50Z) - Towards Unsupervised Deep Image Enhancement with Generative Adversarial
Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。
教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。
その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:22:46Z) - Image Inpainting with Learnable Feature Imputation [8.293345261434943]
正規畳み込み層は、未知の領域にフィルターを適用するのと同じ方法で、塗装された画像の視覚的アーティファクトを引き起こす。
本稿では,欠落した入力値の畳み込みに対する(階層的な)特徴計算を提案する。
我々はCelebA-HQとPlaces2を比較し,そのモデルを検証する。
論文 参考訳(メタデータ) (2020-11-02T16:05:32Z) - Early Exit or Not: Resource-Efficient Blind Quality Enhancement for
Compressed Images [54.40852143927333]
ロスシー画像圧縮は、通信帯域を節約するために広範に行われ、望ましくない圧縮アーティファクトをもたらす。
圧縮画像に対する資源効率の高いブラインド品質向上手法(RBQE)を提案する。
提案手法は, 評価された画像の品質に応じて, 自動的にエンハンスメントを終了するか, 継続するかを決定することができる。
論文 参考訳(メタデータ) (2020-06-30T07:38:47Z) - Progressively Unfreezing Perceptual GAN [28.330940021951438]
画像生成にはGAN(Generative Adversarial Network)が広く用いられているが、生成した画像はテクスチャの詳細が欠如している。
本稿では,テクスチャの細かい画像を生成するための一般的なフレームワークであるProgressively Unfreezing Perceptual GAN(PUPGAN)を提案する。
論文 参考訳(メタデータ) (2020-06-18T03:12:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。