Fugu-MT 論文翻訳(概要): ConsisSR: Delving Deep into Consistency in Diffusion-based Image Super-Resolution

論文の概要: ConsisSR: Delving Deep into Consistency in Diffusion-based Image Super-Resolution

arxiv url: http://arxiv.org/abs/2410.13807v1
Date: Thu, 17 Oct 2024 17:41:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.080509
Title: ConsisSR: Delving Deep into Consistency in Diffusion-based Image Super-Resolution
Title（参考訳）: ConsisSR: 拡散に基づく画像超解法における一貫性の深化
Authors: Junhao Gu, Peng-Tao Jiang, Hao Zhang, Mi Zhou, Jinwei Chen, Wenming Yang, Bo Li,
Abstract要約: 実世界の超解像(Real-ISR)は、未知の複雑な劣化によって劣化した低品質(LQ)入力から高品質(HQ)イメージを復元することを目的としている。セマンティックとピクセルレベルの整合性を扱うためにConsisSRを導入する。
参考スコア（独自算出の注目度）: 28.945663118445037
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Real-world image super-resolution (Real-ISR) aims at restoring high-quality (HQ) images from low-quality (LQ) inputs corrupted by unknown and complex degradations. In particular, pretrained text-to-image (T2I) diffusion models provide strong generative priors to reconstruct credible and intricate details. However, T2I generation focuses on semantic consistency while Real-ISR emphasizes pixel-level reconstruction, which hinders existing methods from fully exploiting diffusion priors. To address this challenge, we introduce ConsisSR to handle both semantic and pixel-level consistency. Specifically, compared to coarse-grained text prompts, we exploit the more powerful CLIP image embedding and effectively leverage both modalities through our Hybrid Prompt Adapter (HPA) for semantic guidance. Secondly, we introduce Time-aware Latent Augmentation (TALA) to mitigate the inherent gap between T2I generation and Real-ISR consistency requirements. By randomly mixing LQ and HQ latent inputs, our model not only handle timestep-specific diffusion noise but also refine the accumulated latent representations. Last but not least, our GAN-Embedding strategy employs the pretrained Real-ESRGAN model to refine the diffusion start point. This accelerates the inference process to 10 steps while preserving sampling quality, in a training-free manner.Our method demonstrates state-of-the-art performance among both full-scale and accelerated models. The code will be made publicly available.
Abstract（参考訳）: 実世界の超解像(Real-ISR)は、未知の複雑な劣化によって劣化した低品質(LQ)入力から高品質(HQ)イメージを復元することを目的としている。特に、事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルは、信頼性と複雑な詳細を再構築するための強力な生成前駆体を提供する。しかし、T2I生成はセマンティック一貫性に重点を置いており、Real-ISRはピクセルレベルの再構成を強調しており、既存の手法が拡散先行をフル活用することを妨げている。この課題に対処するために、セマンティックとピクセルレベルの一貫性の両方を扱うためのConsisSRを紹介します。具体的には、粗粒のテキストプロンプトと比較して、より強力なCLIP画像埋め込みを利用し、セマンティックガイダンスのためにHybrid Prompt Adapter (HPA)を通して両方のモダリティを効果的に活用する。第2に、T2I生成とReal-ISR整合性要件の相違を緩和するために、T2I生成とReal-ISR整合性要件の相違を緩和するために、T2A(Time-Aware Latent Augmentation)を導入する。 LQとHQ潜時入力をランダムに混合することにより、我々のモデルは時間ステップ固有の拡散ノイズだけでなく、蓄積した潜時表現も洗練する。最後に、GAN-Embedding戦略では、事前訓練されたReal-ESRGANモデルを用いて拡散開始点を改良する。これにより, サンプリング品質をトレーニング不要に保ちつつ, 10ステップまで推算処理を高速化し, 実規模モデルと加速モデルの両方の最先端性能を実証する。コードは公開されます。

関連論文リスト

Fast, faithful and photorealistic diffusion-based image super-resolution with enhanced Flow Map models [8.773008452897791]
FlowMapSRは、効率的な推論のために明示的に設計された画像超解像のための新しい拡散ベースのフレームワークである。 FlowMapSRは、最近のx4およびx8アップスケーリングの最先端手法よりも、再構築忠実度とフォトリアリズムのバランスが良いことを示す。
論文参考訳（メタデータ） (2026-01-23T11:25:04Z)
InfSplign: Inference-Time Spatial Alignment of Text-to-Image Diffusion Models [27.206678799411645]
InfSplignは、テキスト・ツー・イメージ・モデルのためのトレーニング不要な推論時間法である。除音ステップ毎に複合損失によってノイズを調整することで空間アライメントを改善する。既存の最強の推論時間ベースラインよりもパフォーマンスが大幅に向上する。
論文参考訳（メタデータ） (2025-12-19T17:52:43Z)
One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文参考訳（メタデータ） (2025-02-04T04:11:29Z)
PromptLA: Towards Integrity Verification of Black-box Text-to-Image Diffusion Models [17.12906933388337]
悪意のあるアクターは、不正なコンテンツを生成するためにT2I拡散モデルを微調整することができる。本稿では,学習オートマトン(PromptLA)に基づく新しいプロンプト選択アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-20T07:24:32Z)
Training-Free Layout-to-Image Generation with Marginal Attention Constraints [73.55660250459132]
トレーニング不要なレイアウト・トゥ・イメージ(L2I)アプローチを提案する。具体的には、テキスト・ビジュアル・クロスアテンション・フィーチャーマップを用いて、生成された画像のレイアウトと提供された命令の不整合を定量化する。自己アテンション特徴写像の画素間相関を利用して、交差アテンション写像を整列し、境界注意で制約された3つの損失関数を組み合わせ、潜時特徴を更新する。
論文参考訳（メタデータ） (2024-11-15T05:44:45Z)
Latent Diffusion, Implicit Amplification: Efficient Continuous-Scale Super-Resolution for Remote Sensing Images [7.920423405957888]
E$2$DiffSRは、最先端のSR手法と比較して、客観的な指標と視覚的品質を達成する。拡散に基づくSR法の推論時間を非拡散法と同程度のレベルに短縮する。
論文参考訳（メタデータ） (2024-10-30T09:14:13Z)
One-step Generative Diffusion for Realistic Extreme Image Rescaling [47.89362819768323]
極端画像再スケーリングのためのワンステップイメージ再スケーリング拡散(OSIRDiff)と呼ばれる新しいフレームワークを提案する。 OSIRDiffは、事前訓練されたオートエンコーダの潜在空間で再スケーリング操作を実行する。これは、事前訓練されたテキスト・ツー・イメージ拡散モデルによって学習された強力な自然画像の先行を効果的に活用する。
論文参考訳（メタデータ） (2024-08-17T09:51:42Z)
One-Step Effective Diffusion Network for Real-World Image Super-Resolution [11.326598938246558]
本稿では,Real-ISR問題に対する1ステップの効果的な拡散ネットワーク,すなわちOSEDiffを提案する。トレーニング可能な層で事前学習した拡散ネットワークを微調整し、複雑な画像劣化に適応する。我々のOSEDiffモデルは1つの拡散ステップでHQイメージを効率よく効果的に生成できる。
論文参考訳（メタデータ） (2024-06-12T13:10:31Z)
Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する既存の二項化法では性能が著しく低下する。画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文参考訳（メタデータ） (2024-06-09T10:30:25Z)
LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? [10.72249123249003]
我々は拡散モデルを再検討し、全体論的文脈モデリングと並列復号化の能力を強調した。本稿では,分割BERTを用いた新しいアーキテクチャLaDiCを導入し,キャプション専用のラテント空間を創出する。 LaDiCは、38.2 BLEU@4と126.2 CIDErのMSデータセット上で拡散ベースのメソッドの最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-04-16T17:47:16Z)
XPSR: Cross-modal Priors for Diffusion-based Image Super-Resolution [14.935662351654601]
画像超解法では, 拡散法が注目されている。 ISRモデルでは、意味や劣化情報を知覚することは困難であり、不正確な内容や非現実的なアーティファクトによる復元画像が得られる。拡散モデルに対する高精度かつ包括的意味条件を取得するために,テキストクロスモーダル・プライマリ・フォー・スーパー・リゾリューション(XPSR)フレームワークを提案する。
論文参考訳（メタデータ） (2024-03-08T04:52:22Z)
Improving Diffusion-Based Image Synthesis with Context Prediction [49.186366441954846]
既存の拡散モデルは、主に、劣化した画像から空間軸に沿って画素幅または特徴幅の制約で入力画像を再構成しようとする。文脈予測を用いて拡散に基づく画像合成を改善するためのConPreDiffを提案する。我々のConPreDiffは従来手法を一貫して上回り、ゼロショットFIDスコア6.21で、MS-COCO上で新たなSOTAテキスト・画像生成結果を達成する。
論文参考訳（メタデータ） (2024-01-04T01:10:56Z)
Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文参考訳（メタデータ） (2023-12-11T18:54:52Z)
Iterative Token Evaluation and Refinement for Real-World Super-Resolution [77.74289677520508]
実世界の画像超解像(RWSR)は、低品質(LQ)画像が複雑で未同定の劣化を起こすため、長年にわたる問題である。本稿では,RWSRのための反復的トークン評価・リファインメントフレームワークを提案する。 ITERはGAN(Generative Adversarial Networks)よりも訓練が容易であり,連続拡散モデルよりも効率的であることを示す。
論文参考訳（メタデータ） (2023-12-09T17:07:32Z)
SeeSR: Towards Semantics-Aware Real-World Image Super-Resolution [16.815468458589635]
生成した実世界の画像の超解像のセマンティックな忠実さをよりよく保存するためのセマンティックス・アウェア・アプローチを提案する。まず, 高精度なソフト・ハード・セマンティック・プロンプトを高い劣化下でも生成できる劣化対応プロンプト抽出器を訓練する。実験により,本手法はよりリアルな画像の詳細を再現し,セマンティクスをよりよく保持できることが示された。
論文参考訳（メタデータ） (2023-11-27T18:11:19Z)
R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image Generation [74.5598315066249]
拡散モデルを用いてゼロショット接地T2I生成を探索する。本稿では,地域境界(R&B)を意識したクロスアテンションガイダンス手法を提案する。
論文参考訳（メタデータ） (2023-10-13T05:48:42Z)
DiffDis: Empowering Generative Diffusion Model with Cross-Modal Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。 DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-08-18T05:03:48Z)
RBSR: Efficient and Flexible Recurrent Network for Burst Super-Resolution [57.98314517861539]
バースト超解像(BurstSR)は、高解像度(HR)画像を低解像度(LR)画像と雑音画像から再構成することを目的としている。本稿では,効率よくフレキシブルなリカレントネットワークでフレーム単位のキューを融合させることを提案する。
論文参考訳（メタデータ） (2023-06-30T12:14:13Z)
Diffusion Visual Counterfactual Explanations [51.077318228247925]
VCE(Visual Counterfactual Explanations)は、画像の決定を理解するための重要なツールである。 VCEの生成に対する現在のアプローチは、逆向きに堅牢なモデルに制限されており、しばしば非現実的なアーティファクトを含んでいる。本稿では、任意のイメージネット分類器に対して、視覚拡散対実説明(DVCE)を生成することでこれを克服する。
論文参考訳（メタデータ） (2022-10-21T09:35:47Z)
DDet: Dual-path Dynamic Enhancement Network for Real-World Image Super-Resolution [69.2432352477966]
実画像超解像(Real-SR)は、実世界の高分解能画像(HR)と低分解能画像(LR)の関係に焦点を当てている。本稿では,Real-SRのためのデュアルパス動的拡張ネットワーク(DDet)を提案する。特徴表現のための大規模な畳み込みブロックを積み重ねる従来の手法とは異なり、非一貫性のある画像対を研究するためのコンテンツ認識フレームワークを導入する。
論文参考訳（メタデータ） (2020-02-25T18:24:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。