論文の概要: MegaSR: Mining Customized Semantics and Expressive Guidance for Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2503.08096v1
- Date: Tue, 11 Mar 2025 07:00:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:43:40.061383
- Title: MegaSR: Mining Customized Semantics and Expressive Guidance for Image Super-Resolution
- Title(参考訳): MegaSR:イメージ超解像のためのカスタマイズされたセマンティックと表現的ガイダンス
- Authors: Xinrui Li, Jianlong Wu, Xinchuan Huang, Chong Chen, Weili Guan, Xian-Sheng Hua, Liqiang Nie,
- Abstract要約: MegaSRは、カスタマイズされたブロックワイドセマンティクスと拡散ベースのISRのための表現的ガイダンスをマイニングする。
我々は,HEDエッジマップ,深度マップ,セグメンテーションマップを最も表現力のあるガイダンスとして実験的に同定した。
大規模な実験は、意味的豊かさと構造的整合性の観点からMegaSRの優位性を示す。
- 参考スコア(独自算出の注目度): 76.30559905769859
- License:
- Abstract: Pioneering text-to-image (T2I) diffusion models have ushered in a new era of real-world image super-resolution (Real-ISR), significantly enhancing the visual perception of reconstructed images. However, existing methods typically integrate uniform abstract textual semantics across all blocks, overlooking the distinct semantic requirements at different depths and the fine-grained, concrete semantics inherently present in the images themselves. Moreover, relying solely on a single type of guidance further disrupts the consistency of reconstruction. To address these issues, we propose MegaSR, a novel framework that mines customized block-wise semantics and expressive guidance for diffusion-based ISR. Compared to uniform textual semantics, MegaSR enables flexible adaptation to multi-granularity semantic awareness by dynamically incorporating image attributes at each block. Furthermore, we experimentally identify HED edge maps, depth maps, and segmentation maps as the most expressive guidance, and propose a multi-stage aggregation strategy to modulate them into the T2I models. Extensive experiments demonstrate the superiority of MegaSR in terms of semantic richness and structural consistency.
- Abstract(参考訳): ピオネリングテキスト・トゥ・イメージ(T2I)拡散モデルが現実の超解像(Real-ISR)の新たな時代に定着し、再構成画像の視覚的知覚が著しく向上した。
しかし、既存の手法は一般的にすべてのブロックにわたって一様に抽象的なテキスト意味論を統合し、異なる深さにおける異なる意味的要求と、画像自体に固有の微細で具体的な意味論を見極めている。
さらに、単一のタイプのガイダンスにのみ依存することで、再構築の一貫性をさらに損なうことになる。
これらの問題に対処するために,ブロックワイズ・セマンティクスをマイニングし,拡散型ISRの表現的指導を行う新しいフレームワークであるMegaSRを提案する。
均一なテキストセマンティクスと比較して、MegaSRは各ブロックに画像属性を動的に組み込むことで、多粒度セマンティクス認識への柔軟な適応を可能にする。
さらに,HEDエッジマップ,深度マップ,セグメンテーションマップを最も表現力のあるガイダンスとして実験的に同定し,それらをT2Iモデルに変調するための多段階アグリゲーション戦略を提案する。
大規模な実験は、意味的豊かさと構造的整合性の観点からMegaSRの優位性を示す。
関連論文リスト
- Semantic Segmentation Prior for Diffusion-Based Real-World Super-Resolution [22.655127409294554]
実世界の画像超解像(Real-ISR)は、大規模なテキスト・画像モデルを活用することで驚くべき飛躍を遂げた。
本稿では,拡散に基づく画像の超解像への追加制御条件としてセマンティックセグメンテーションを提案する。
論文 参考訳(メタデータ) (2024-12-04T02:11:09Z) - HoliSDiP: Image Super-Resolution via Holistic Semantics and Diffusion Prior [62.04939047885834]
本稿では,意味的セグメンテーションを活用するフレームワークであるHoliSDiPについて述べる。
本手法では, セグメンテーションマスクと空間CLIPマップを用いて, セグメンテーションガイダンスを導入しながら, セグメンテーションラベルを簡潔なテキストプロンプトとして利用する。
論文 参考訳(メタデータ) (2024-11-27T15:22:44Z) - SeD: Semantic-Aware Discriminator for Image Super-Resolution [20.646975821512395]
Generative Adversarial Networks (GAN) は画像超解像(SR)タスクの鮮やかなテクスチャを復元するために広く利用されている。
1つの識別器を用いて、SRネットワークは、現実の高品質な画像の分布を敵の訓練方法で学習することができる。
簡便かつ効果的な意味認識識別器(SeD)を提案する。
SeDは、画像のセマンティクスを条件として導入することにより、SRネットワークにきめ細かい分布の学習を奨励する。
論文 参考訳(メタデータ) (2024-02-29T17:38:54Z) - Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution [15.391125077873745]
Scene Text Image Super-Resolution (STISR)は、低解像度(LR)画像におけるテキストの解像度と可視性を高めることを目的としている。
従来は差別的畳み込みニューラルネットワーク(CNN)を多種多様なテキストガイダンスで用いていた。
本稿では,シーンテキスト画像の認識誘導拡散モデルであるRGDiffSRを紹介する。
論文 参考訳(メタデータ) (2023-11-22T11:10:45Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - DSE-GAN: Dynamic Semantic Evolution Generative Adversarial Network for
Text-to-Image Generation [71.87682778102236]
本稿では,動的セマンティック進化GAN(DSE-GAN)を提案する。
DSE-GANは2つの広く使用されているベンチマークで7.48%と37.8%のFID改善を達成した。
論文 参考訳(メタデータ) (2022-09-03T06:13:26Z) - Transformer-empowered Multi-scale Contextual Matching and Aggregation
for Multi-contrast MRI Super-resolution [55.52779466954026]
マルチコントラスト・スーパーレゾリューション (SR) 再構成により, SR画像の高画質化が期待できる。
既存の手法では、これらの特徴をマッチングし、融合させる効果的なメカニズムが欠如している。
そこで本稿では,トランスフォーマーを利用したマルチスケールコンテキストマッチングとアグリゲーション技術を開発することで,これらの問題を解決する新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-03-26T01:42:59Z) - DDet: Dual-path Dynamic Enhancement Network for Real-World Image
Super-Resolution [69.2432352477966]
実画像超解像(Real-SR)は、実世界の高分解能画像(HR)と低分解能画像(LR)の関係に焦点を当てている。
本稿では,Real-SRのためのデュアルパス動的拡張ネットワーク(DDet)を提案する。
特徴表現のための大規模な畳み込みブロックを積み重ねる従来の手法とは異なり、非一貫性のある画像対を研究するためのコンテンツ認識フレームワークを導入する。
論文 参考訳(メタデータ) (2020-02-25T18:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。