論文の概要: Latent Guidance in Diffusion Models for Perceptual Evaluations
- arxiv url: http://arxiv.org/abs/2506.00327v1
- Date: Sat, 31 May 2025 00:41:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.7794
- Title: Latent Guidance in Diffusion Models for Perceptual Evaluations
- Title(参考訳): 拡散モデルにおける潜在誘導による知覚的評価
- Authors: Shreshth Saini, Ru-Ling Liao, Yan Ye, Alan C. Bovik,
- Abstract要約: 潜在拡散モデルは、データ多様体内の知覚的に一貫した局所領域を暗黙的に示す。
本稿では,事前学習した潜伏拡散モデルと知覚品質特徴を利用するアルゴリズムである知覚マニフォールドガイダンス(PMG)を提案する。
提案手法は,NR-IQAタスクの拡散モデルの優れた一般化能力を実証し,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 33.915594693285556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advancements in latent diffusion models that generate high-dimensional image data and perform various downstream tasks, there has been little exploration into perceptual consistency within these models on the task of No-Reference Image Quality Assessment (NR-IQA). In this paper, we hypothesize that latent diffusion models implicitly exhibit perceptually consistent local regions within the data manifold. We leverage this insight to guide on-manifold sampling using perceptual features and input measurements. Specifically, we propose Perceptual Manifold Guidance (PMG), an algorithm that utilizes pretrained latent diffusion models and perceptual quality features to obtain perceptually consistent multi-scale and multi-timestep feature maps from the denoising U-Net. We empirically demonstrate that these hyperfeatures exhibit high correlation with human perception in IQA tasks. Our method can be applied to any existing pretrained latent diffusion model and is straightforward to integrate. To the best of our knowledge, this paper is the first work on guiding diffusion model with perceptual features for NR-IQA. Extensive experiments on IQA datasets show that our method, LGDM, achieves state-of-the-art performance, underscoring the superior generalization capabilities of diffusion models for NR-IQA tasks.
- Abstract(参考訳): 近年,高次元画像データを生成し,様々な下流タスクを実行する潜時拡散モデルが進歩しているにもかかわらず,非参照画像品質評価(NR-IQA)の課題において,これらのモデル内の知覚的一貫性についてはほとんど調査されていない。
本稿では,潜在拡散モデルがデータ多様体内の知覚的に一貫した局所領域を暗黙的に示すことを仮定する。
この知見を応用して,知覚的特徴と入力測定を用いたオンマンフォールドサンプリングを導出する。
具体的には,事前学習された潜伏拡散モデルと知覚品質特徴を利用するアルゴリズムである知覚マニフォールドガイダンス(PMG)を提案する。
IQAタスクにおいて,これらのハイパーフィーチャーが人間の知覚と高い相関を示すことを実証的に実証した。
本手法は,既存の遅延拡散モデルに適用可能であり,統合が容易である。
我々の知る限りでは、NR-IQAの知覚的特徴を持つ拡散モデルの導出に関する最初の研究である。
IQAデータセットの大規模な実験により,我々の手法であるLGDMが最先端の性能を実現し,NR-IQAタスクの拡散モデルの優れた一般化能力を実証した。
関連論文リスト
- Consistent World Models via Foresight Diffusion [56.45012929930605]
我々は、一貫した拡散に基づく世界モデルを学習する上で重要なボトルネックは、最適下予測能力にあると主張している。
本稿では,拡散に基づく世界モデリングフレームワークであるForesight Diffusion(ForeDiff)を提案する。
論文 参考訳(メタデータ) (2025-05-22T10:01:59Z) - PLADIS: Pushing the Limits of Attention in Diffusion Models at Inference Time by Leveraging Sparsity [9.092404060771306]
拡散モデルでは、高品質な条件付きサンプルの生成に顕著な結果が示されている。
しかし、既存の方法は、しばしば追加のトレーニングや神経機能評価(NFE)を必要とする。
本稿では,スパースアテンションを生かして事前学習モデルを強化する,PLADISと呼ばれる新しい,効率的な手法を提案する。
論文 参考訳(メタデータ) (2025-03-10T07:23:19Z) - Diffusion Models in Low-Level Vision: A Survey [82.77962165415153]
拡散モデルに基づくソリューションは、優れた品質と多様性のサンプルを作成する能力で広く称賛されている。
本稿では,3つの一般化拡散モデリングフレームワークを提案し,それらと他の深層生成モデルとの相関関係について検討する。
医療、リモートセンシング、ビデオシナリオなど、他のタスクに適用された拡張拡散モデルについて要約する。
論文 参考訳(メタデータ) (2024-06-17T01:49:27Z) - DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [54.139923409101044]
野生のブラインド画像品質評価(IQA)は重大な課題を呈している。
大規模なトレーニングデータの収集が困難であることを考えると、厳密な一般化モデルを開発するために限られたデータを活用することは、未解決の問題である。
事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルの堅牢な画像認識能力により,新しいIQA法,拡散先行に基づくIQAを提案する。
論文 参考訳(メタデータ) (2024-05-30T12:32:35Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。