論文の概要: HoliSDiP: Image Super-Resolution via Holistic Semantics and Diffusion Prior
- arxiv url: http://arxiv.org/abs/2411.18662v1
- Date: Wed, 27 Nov 2024 15:22:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:32.635580
- Title: HoliSDiP: Image Super-Resolution via Holistic Semantics and Diffusion Prior
- Title(参考訳): HoliSDiP:ホロスティックなセマンティックスと拡散による超解像
- Authors: Li-Yuan Tsao, Hao-Wei Chen, Hao-Wei Chung, Deqing Sun, Chun-Yi Lee, Kelvin C. K. Chan, Ming-Hsuan Yang,
- Abstract要約: 本稿では,意味的セグメンテーションを活用するフレームワークであるHoliSDiPについて述べる。
本手法では, セグメンテーションマスクと空間CLIPマップを用いて, セグメンテーションガイダンスを導入しながら, セグメンテーションラベルを簡潔なテキストプロンプトとして利用する。
- 参考スコア(独自算出の注目度): 62.04939047885834
- License:
- Abstract: Text-to-image diffusion models have emerged as powerful priors for real-world image super-resolution (Real-ISR). However, existing methods may produce unintended results due to noisy text prompts and their lack of spatial information. In this paper, we present HoliSDiP, a framework that leverages semantic segmentation to provide both precise textual and spatial guidance for diffusion-based Real-ISR. Our method employs semantic labels as concise text prompts while introducing dense semantic guidance through segmentation masks and our proposed Segmentation-CLIP Map. Extensive experiments demonstrate that HoliSDiP achieves significant improvement in image quality across various Real-ISR scenarios through reduced prompt noise and enhanced spatial control.
- Abstract(参考訳): テキストと画像の拡散モデルは、現実世界の超解像(Real-ISR)の強力な先行モデルとして登場した。
しかし、既存の手法は、ノイズの多いテキストプロンプトと空間情報の欠如により意図しない結果を生み出す可能性がある。
本稿では,意味的セグメンテーションを活用するフレームワークであるHoliSDiPについて述べる。
提案手法では,セグメンテーションマスクとセグメンテーション・CLIPマップを介し,セグメンテーションの高精度なセグメンテーションガイダンスを導入しながら,セグメンテーションラベルを簡潔なテキストプロンプトとして利用する。
広汎な実験により、HoliSDiPは、プロンプトノイズの低減と空間制御の強化により、様々なReal-ISRシナリオにおける画像品質が大幅に向上することを示した。
関連論文リスト
- Exploring Fine-Grained Image-Text Alignment for Referring Remote Sensing Image Segmentation [27.95875467352853]
本稿では,視覚的および言語的表現を完全に活用する新たな参照リモートセンシング画像分割手法であるFIANetを提案する。
提案した細粒度画像テキストアライメントモジュール(FIAM)は、入力画像と対応するテキストの特徴を同時に活用する。
本稿では,RefSegRSとRRSIS-Dを含む2つのリモートセンシングデータセットに対する提案手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-09-20T16:45:32Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - Enhancing Label-efficient Medical Image Segmentation with Text-guided Diffusion Models [5.865983529245793]
TextDiffは、安価な医療用テキストアノテーションを通じて意味表現を改善する。
その結果,TextDiffは,少数のトレーニングサンプルのみで,最先端のマルチモーダルセグメンテーション手法よりもはるかに優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-07T10:21:08Z) - EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models [52.3015009878545]
我々は、追加の訓練をすることなく、きめ細かなセグメンテーションマップを生成できる画像セグメンタを開発した。
低次元特徴写像の空間的位置と画像画素間の意味的対応を同定する。
大規模な実験では、生成したセグメンテーションマップがよく説明され、画像の細部を捉えることが示されている。
論文 参考訳(メタデータ) (2024-01-22T07:34:06Z) - Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution [15.391125077873745]
Scene Text Image Super-Resolution (STISR)は、低解像度(LR)画像におけるテキストの解像度と可視性を高めることを目的としている。
従来は差別的畳み込みニューラルネットワーク(CNN)を多種多様なテキストガイダンスで用いていた。
本稿では,シーンテキスト画像の認識誘導拡散モデルであるRGDiffSRを紹介する。
論文 参考訳(メタデータ) (2023-11-22T11:10:45Z) - Diffusion-based Image Translation with Label Guidance for Domain
Adaptive Semantic Segmentation [35.44771460784343]
ターゲットモデル学習のためのソースドメインからターゲットドメインへの変換は、ドメイン適応セマンティックセグメンテーション(DASS)において最も一般的な戦略の1つである。
既存の方法は、元の画像と翻訳された画像の間の意味的に一貫性のある局所的な詳細を保存するのに依然として苦労している。
本稿では、画像翻訳中にソースドメインラベルを明示的なガイダンスとして用いることにより、この問題に対処する革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-23T18:01:01Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。