Fugu-MT 論文翻訳(概要): Latent Guidance in Diffusion Models for Perceptual Evaluations

論文の概要: Latent Guidance in Diffusion Models for Perceptual Evaluations

arxiv url: http://arxiv.org/abs/2506.00327v1
Date: Sat, 31 May 2025 00:41:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:32.7794
Title: Latent Guidance in Diffusion Models for Perceptual Evaluations
Title（参考訳）: 拡散モデルにおける潜在誘導による知覚的評価
Authors: Shreshth Saini, Ru-Ling Liao, Yan Ye, Alan C. Bovik,
Abstract要約: 潜在拡散モデルは、データ多様体内の知覚的に一貫した局所領域を暗黙的に示す。本稿では,事前学習した潜伏拡散モデルと知覚品質特徴を利用するアルゴリズムである知覚マニフォールドガイダンス(PMG)を提案する。提案手法は,NR-IQAタスクの拡散モデルの優れた一般化能力を実証し,最先端の性能を実現する。
参考スコア（独自算出の注目度）: 33.915594693285556
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite recent advancements in latent diffusion models that generate high-dimensional image data and perform various downstream tasks, there has been little exploration into perceptual consistency within these models on the task of No-Reference Image Quality Assessment (NR-IQA). In this paper, we hypothesize that latent diffusion models implicitly exhibit perceptually consistent local regions within the data manifold. We leverage this insight to guide on-manifold sampling using perceptual features and input measurements. Specifically, we propose Perceptual Manifold Guidance (PMG), an algorithm that utilizes pretrained latent diffusion models and perceptual quality features to obtain perceptually consistent multi-scale and multi-timestep feature maps from the denoising U-Net. We empirically demonstrate that these hyperfeatures exhibit high correlation with human perception in IQA tasks. Our method can be applied to any existing pretrained latent diffusion model and is straightforward to integrate. To the best of our knowledge, this paper is the first work on guiding diffusion model with perceptual features for NR-IQA. Extensive experiments on IQA datasets show that our method, LGDM, achieves state-of-the-art performance, underscoring the superior generalization capabilities of diffusion models for NR-IQA tasks.
Abstract（参考訳）: 近年,高次元画像データを生成し,様々な下流タスクを実行する潜時拡散モデルが進歩しているにもかかわらず,非参照画像品質評価(NR-IQA)の課題において,これらのモデル内の知覚的一貫性についてはほとんど調査されていない。本稿では,潜在拡散モデルがデータ多様体内の知覚的に一貫した局所領域を暗黙的に示すことを仮定する。この知見を応用して,知覚的特徴と入力測定を用いたオンマンフォールドサンプリングを導出する。具体的には,事前学習された潜伏拡散モデルと知覚品質特徴を利用するアルゴリズムである知覚マニフォールドガイダンス(PMG)を提案する。 IQAタスクにおいて,これらのハイパーフィーチャーが人間の知覚と高い相関を示すことを実証的に実証した。本手法は,既存の遅延拡散モデルに適用可能であり,統合が容易である。我々の知る限りでは、NR-IQAの知覚的特徴を持つ拡散モデルの導出に関する最初の研究である。 IQAデータセットの大規模な実験により,我々の手法であるLGDMが最先端の性能を実現し,NR-IQAタスクの拡散モデルの優れた一般化能力を実証した。

関連論文リスト

Diffusion models under low-noise regime [3.729242965449096]
拡散モデルは, 汚損レベルが小さい場合に有効であることを示す。トレーニングセットのサイズ,データ幾何,および客観選択形状のモデル化方法の定量化を行う。この研究は、実用的なアプリケーションにおける生成モデルの信頼性に対する理解のギャップに対処し始めます。
論文参考訳（メタデータ） (2025-06-09T15:07:16Z)
Consistent World Models via Foresight Diffusion [56.45012929930605]
我々は、一貫した拡散に基づく世界モデルを学習する上で重要なボトルネックは、最適下予測能力にあると主張している。本稿では,拡散に基づく世界モデリングフレームワークであるForesight Diffusion(ForeDiff)を提案する。
論文参考訳（メタデータ） (2025-05-22T10:01:59Z)
PLADIS: Pushing the Limits of Attention in Diffusion Models at Inference Time by Leveraging Sparsity [9.092404060771306]
拡散モデルでは、高品質な条件付きサンプルの生成に顕著な結果が示されている。しかし、既存の方法は、しばしば追加のトレーニングや神経機能評価(NFE)を必要とする。本稿では,スパースアテンションを生かして事前学習モデルを強化する,PLADISと呼ばれる新しい,効率的な手法を提案する。
論文参考訳（メタデータ） (2025-03-10T07:23:19Z)
Diffusion Models in Low-Level Vision: A Survey [82.77962165415153]
拡散モデルに基づくソリューションは、優れた品質と多様性のサンプルを作成する能力で広く称賛されている。本稿では,3つの一般化拡散モデリングフレームワークを提案し,それらと他の深層生成モデルとの相関関係について検討する。医療、リモートセンシング、ビデオシナリオなど、他のタスクに適用された拡張拡散モデルについて要約する。
論文参考訳（メタデータ） (2024-06-17T01:49:27Z)
DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [54.139923409101044]
野生のブラインド画像品質評価(IQA)は重大な課題を呈している。大規模なトレーニングデータの収集が困難であることを考えると、厳密な一般化モデルを開発するために限られたデータを活用することは、未解決の問題である。事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルの堅牢な画像認識能力により,新しいIQA法,拡散先行に基づくIQAを提案する。
論文参考訳（メタデータ） (2024-05-30T12:32:35Z)
An Overview of Diffusion Models: Applications, Guided Generation, Statistical Rates and Optimization [59.63880337156392]
拡散モデルはコンピュータビジョン、オーディオ、強化学習、計算生物学において大きな成功を収めた。経験的成功にもかかわらず、拡散モデルの理論は非常に限定的である。本稿では,前向きな理論や拡散モデルの手法を刺激する理論的露光について述べる。
論文参考訳（メタデータ） (2024-04-11T14:07:25Z)
Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文参考訳（メタデータ） (2023-12-14T11:19:11Z)
Insights into Closed-form IPM-GAN Discriminator Guidance for Diffusion Modeling [11.68361062474064]
本稿では,GAN判別器がLangevinに基づくサンプリングに与える影響を理論的に解析する枠組みを提案する。提案手法は既存の加速拡散技術と組み合わせて潜在空間画像生成を改善することができることを示す。
論文参考訳（メタデータ） (2023-06-02T16:24:07Z)
A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文参考訳（メタデータ） (2022-09-06T16:56:21Z)
How Much is Enough? A Study on Diffusion Times in Score-based Generative Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文参考訳（メタデータ） (2022-06-10T15:09:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。