Fugu-MT 論文翻訳(概要): Improving Consistency in Diffusion Models for Image Super-Resolution

論文の概要: Improving Consistency in Diffusion Models for Image Super-Resolution

arxiv url: http://arxiv.org/abs/2410.13807v2
Date: Thu, 24 Apr 2025 18:57:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-28 18:47:07.342751
Title: Improving Consistency in Diffusion Models for Image Super-Resolution
Title（参考訳）: 画像超解像における拡散モデルの整合性向上
Authors: Junhao Gu, Peng-Tao Jiang, Hao Zhang, Mi Zhou, Jinwei Chen, Wenming Yang, Bo Li,
Abstract要約: 拡散法における2種類の矛盾を観測する。セマンティックとトレーニング-推論の組み合わせを扱うために、ConsisSRを導入します。本手法は,既存拡散モデルにおける最先端性能を示す。
参考スコア（独自算出の注目度）: 28.945663118445037
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent methods exploit the powerful text-to-image (T2I) diffusion models for real-world image super-resolution (Real-ISR) and achieve impressive results compared to previous models. However, we observe two kinds of inconsistencies in diffusion-based methods which hinder existing models from fully exploiting diffusion priors. The first is the semantic inconsistency arising from diffusion guidance. T2I generation focuses on semantic-level consistency with text prompts, while Real-ISR emphasizes pixel-level reconstruction from low-quality (LQ) images, necessitating more detailed semantic guidance from LQ inputs. The second is the training-inference inconsistency stemming from the DDPM, which improperly assumes high-quality (HQ) latent corrupted by Gaussian noise as denoising inputs for each timestep. To address these issues, we introduce ConsisSR to handle both semantic and training-inference consistencies. On the one hand, to address the semantic inconsistency, we proposed a Hybrid Prompt Adapter (HPA). Instead of text prompts with coarse-grained classification information, we leverage the more powerful CLIP image embeddings to explore additional color and texture guidance. On the other hand, we introduce Time-Aware Latent Augmentation (TALA) to bridge the training-inference inconsistency. Based on the probability function p(t), we accordingly enhance the SDSR training strategy. With LQ latent with Gaussian noise as inputs, our TALA not only focuses on diffusion noise but also refine the LQ latent towards the HQ counterpart. Our method demonstrates state-of-the-art performance among existing diffusion models. The code will be made publicly available.
Abstract（参考訳）: 近年の手法では、実世界の画像超解像(Real-ISR)に強力なテキスト・ツー・イメージ(T2I)拡散モデルを用いており、従来のモデルと比較して印象的な結果が得られる。しかし,既存のモデルが拡散先行を十分に活用することを妨げる拡散法では,2種類の矛盾を観測する。 1つ目は、拡散誘導から生じる意味的不整合である。 T2I生成はテキストプロンプトとのセマンティックレベルの一貫性を重視し、Real-ISRは低品質(LQ)画像からのピクセルレベルの再構成を強調し、LQ入力からのより詳細なセマンティックガイダンスを必要とする。 2つ目はDDPMから派生したトレーニング推論の不整合であり、これはガウスノイズによって劣化した高品質(HQ)潜時を各タイムステップの入力として不適切に仮定する。これらの問題に対処するために、意味と訓練-推論の組み合わせを扱うためにConsisSRを導入します。一方,意味的不整合に対処するため,Hybrid Prompt Adapter (HPA)を提案する。粗い分類情報を持つテキストプロンプトの代わりに、より強力なCLIP画像埋め込みを利用して、色とテクスチャのガイダンスを探索する。一方,トレーニング・推論の不整合を補うために,talA(Time-Aware Latent Augmentation)を導入する。確率関数 p(t) に基づいて,SDSR トレーニング戦略を強化する。ガウスノイズを入力とするLQ潜水器では、私たちのTALAは拡散ノイズだけでなく、本部へのLQ潜水器の改良にも力を入れています。本手法は,既存拡散モデルにおける最先端性能を示す。コードは公開されます。

関連論文リスト

Fast, faithful and photorealistic diffusion-based image super-resolution with enhanced Flow Map models [8.773008452897791]
FlowMapSRは、効率的な推論のために明示的に設計された画像超解像のための新しい拡散ベースのフレームワークである。 FlowMapSRは、最近のx4およびx8アップスケーリングの最先端手法よりも、再構築忠実度とフォトリアリズムのバランスが良いことを示す。
論文参考訳（メタデータ） (2026-01-23T11:25:04Z)
InfSplign: Inference-Time Spatial Alignment of Text-to-Image Diffusion Models [27.206678799411645]
InfSplignは、テキスト・ツー・イメージ・モデルのためのトレーニング不要な推論時間法である。除音ステップ毎に複合損失によってノイズを調整することで空間アライメントを改善する。既存の最強の推論時間ベースラインよりもパフォーマンスが大幅に向上する。
論文参考訳（メタデータ） (2025-12-19T17:52:43Z)
One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文参考訳（メタデータ） (2025-02-04T04:11:29Z)
PromptLA: Towards Integrity Verification of Black-box Text-to-Image Diffusion Models [17.12906933388337]
悪意のあるアクターは、不正なコンテンツを生成するためにT2I拡散モデルを微調整することができる。本稿では,学習オートマトン(PromptLA)に基づく新しいプロンプト選択アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-20T07:24:32Z)
Training-Free Layout-to-Image Generation with Marginal Attention Constraints [73.55660250459132]
トレーニング不要なレイアウト・トゥ・イメージ(L2I)アプローチを提案する。具体的には、テキスト・ビジュアル・クロスアテンション・フィーチャーマップを用いて、生成された画像のレイアウトと提供された命令の不整合を定量化する。自己アテンション特徴写像の画素間相関を利用して、交差アテンション写像を整列し、境界注意で制約された3つの損失関数を組み合わせ、潜時特徴を更新する。
論文参考訳（メタデータ） (2024-11-15T05:44:45Z)
Latent Diffusion, Implicit Amplification: Efficient Continuous-Scale Super-Resolution for Remote Sensing Images [7.920423405957888]
E$2$DiffSRは、最先端のSR手法と比較して、客観的な指標と視覚的品質を達成する。拡散に基づくSR法の推論時間を非拡散法と同程度のレベルに短縮する。
論文参考訳（メタデータ） (2024-10-30T09:14:13Z)
One-step Generative Diffusion for Realistic Extreme Image Rescaling [47.89362819768323]
極端画像再スケーリングのためのワンステップイメージ再スケーリング拡散(OSIRDiff)と呼ばれる新しいフレームワークを提案する。 OSIRDiffは、事前訓練されたオートエンコーダの潜在空間で再スケーリング操作を実行する。これは、事前訓練されたテキスト・ツー・イメージ拡散モデルによって学習された強力な自然画像の先行を効果的に活用する。
論文参考訳（メタデータ） (2024-08-17T09:51:42Z)
One-Step Effective Diffusion Network for Real-World Image Super-Resolution [11.326598938246558]
本稿では,Real-ISR問題に対する1ステップの効果的な拡散ネットワーク,すなわちOSEDiffを提案する。トレーニング可能な層で事前学習した拡散ネットワークを微調整し、複雑な画像劣化に適応する。我々のOSEDiffモデルは1つの拡散ステップでHQイメージを効率よく効果的に生成できる。
論文参考訳（メタデータ） (2024-06-12T13:10:31Z)
Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する既存の二項化法では性能が著しく低下する。画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文参考訳（メタデータ） (2024-06-09T10:30:25Z)
LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? [10.72249123249003]
我々は拡散モデルを再検討し、全体論的文脈モデリングと並列復号化の能力を強調した。本稿では,分割BERTを用いた新しいアーキテクチャLaDiCを導入し,キャプション専用のラテント空間を創出する。 LaDiCは、38.2 BLEU@4と126.2 CIDErのMSデータセット上で拡散ベースのメソッドの最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-04-16T17:47:16Z)
XPSR: Cross-modal Priors for Diffusion-based Image Super-Resolution [14.935662351654601]
画像超解法では, 拡散法が注目されている。 ISRモデルでは、意味や劣化情報を知覚することは困難であり、不正確な内容や非現実的なアーティファクトによる復元画像が得られる。拡散モデルに対する高精度かつ包括的意味条件を取得するために,テキストクロスモーダル・プライマリ・フォー・スーパー・リゾリューション(XPSR)フレームワークを提案する。
論文参考訳（メタデータ） (2024-03-08T04:52:22Z)
Improving Diffusion-Based Image Synthesis with Context Prediction [49.186366441954846]
既存の拡散モデルは、主に、劣化した画像から空間軸に沿って画素幅または特徴幅の制約で入力画像を再構成しようとする。文脈予測を用いて拡散に基づく画像合成を改善するためのConPreDiffを提案する。我々のConPreDiffは従来手法を一貫して上回り、ゼロショットFIDスコア6.21で、MS-COCO上で新たなSOTAテキスト・画像生成結果を達成する。
論文参考訳（メタデータ） (2024-01-04T01:10:56Z)
Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文参考訳（メタデータ） (2023-12-11T18:54:52Z)
Iterative Token Evaluation and Refinement for Real-World Super-Resolution [77.74289677520508]
実世界の画像超解像(RWSR)は、低品質(LQ)画像が複雑で未同定の劣化を起こすため、長年にわたる問題である。本稿では,RWSRのための反復的トークン評価・リファインメントフレームワークを提案する。 ITERはGAN(Generative Adversarial Networks)よりも訓練が容易であり,連続拡散モデルよりも効率的であることを示す。
論文参考訳（メタデータ） (2023-12-09T17:07:32Z)
SeeSR: Towards Semantics-Aware Real-World Image Super-Resolution [16.815468458589635]
生成した実世界の画像の超解像のセマンティックな忠実さをよりよく保存するためのセマンティックス・アウェア・アプローチを提案する。まず, 高精度なソフト・ハード・セマンティック・プロンプトを高い劣化下でも生成できる劣化対応プロンプト抽出器を訓練する。実験により,本手法はよりリアルな画像の詳細を再現し,セマンティクスをよりよく保持できることが示された。
論文参考訳（メタデータ） (2023-11-27T18:11:19Z)
R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image Generation [74.5598315066249]
拡散モデルを用いてゼロショット接地T2I生成を探索する。本稿では,地域境界(R&B)を意識したクロスアテンションガイダンス手法を提案する。
論文参考訳（メタデータ） (2023-10-13T05:48:42Z)
DiffDis: Empowering Generative Diffusion Model with Cross-Modal Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。 DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-08-18T05:03:48Z)
RBSR: Efficient and Flexible Recurrent Network for Burst Super-Resolution [57.98314517861539]
バースト超解像(BurstSR)は、高解像度(HR)画像を低解像度(LR)画像と雑音画像から再構成することを目的としている。本稿では,効率よくフレキシブルなリカレントネットワークでフレーム単位のキューを融合させることを提案する。
論文参考訳（メタデータ） (2023-06-30T12:14:13Z)
Diffusion Visual Counterfactual Explanations [51.077318228247925]
VCE(Visual Counterfactual Explanations)は、画像の決定を理解するための重要なツールである。 VCEの生成に対する現在のアプローチは、逆向きに堅牢なモデルに制限されており、しばしば非現実的なアーティファクトを含んでいる。本稿では、任意のイメージネット分類器に対して、視覚拡散対実説明(DVCE)を生成することでこれを克服する。
論文参考訳（メタデータ） (2022-10-21T09:35:47Z)
DDet: Dual-path Dynamic Enhancement Network for Real-World Image Super-Resolution [69.2432352477966]
実画像超解像(Real-SR)は、実世界の高分解能画像(HR)と低分解能画像(LR)の関係に焦点を当てている。本稿では,Real-SRのためのデュアルパス動的拡張ネットワーク(DDet)を提案する。特徴表現のための大規模な畳み込みブロックを積み重ねる従来の手法とは異なり、非一貫性のある画像対を研究するためのコンテンツ認識フレームワークを導入する。
論文参考訳（メタデータ） (2020-02-25T18:24:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。