Fugu-MT 論文翻訳(概要): HoliSDiP: Image Super-Resolution via Holistic Semantics and Diffusion Prior

論文の概要: HoliSDiP: Image Super-Resolution via Holistic Semantics and Diffusion Prior

arxiv url: http://arxiv.org/abs/2411.18662v1
Date: Wed, 27 Nov 2024 15:22:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 20:28:07.596624
Title: HoliSDiP: Image Super-Resolution via Holistic Semantics and Diffusion Prior
Title（参考訳）: HoliSDiP:ホロスティックなセマンティックスと拡散による超解像
Authors: Li-Yuan Tsao, Hao-Wei Chen, Hao-Wei Chung, Deqing Sun, Chun-Yi Lee, Kelvin C. K. Chan, Ming-Hsuan Yang,
Abstract要約: 本稿では,意味的セグメンテーションを活用するフレームワークであるHoliSDiPについて述べる。本手法では, セグメンテーションマスクと空間CLIPマップを用いて, セグメンテーションガイダンスを導入しながら, セグメンテーションラベルを簡潔なテキストプロンプトとして利用する。
参考スコア（独自算出の注目度）: 62.04939047885834
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-image diffusion models have emerged as powerful priors for real-world image super-resolution (Real-ISR). However, existing methods may produce unintended results due to noisy text prompts and their lack of spatial information. In this paper, we present HoliSDiP, a framework that leverages semantic segmentation to provide both precise textual and spatial guidance for diffusion-based Real-ISR. Our method employs semantic labels as concise text prompts while introducing dense semantic guidance through segmentation masks and our proposed Segmentation-CLIP Map. Extensive experiments demonstrate that HoliSDiP achieves significant improvement in image quality across various Real-ISR scenarios through reduced prompt noise and enhanced spatial control.
Abstract（参考訳）: テキストと画像の拡散モデルは、現実世界の超解像(Real-ISR)の強力な先行モデルとして登場した。しかし、既存の手法は、ノイズの多いテキストプロンプトと空間情報の欠如により意図しない結果を生み出す可能性がある。本稿では,意味的セグメンテーションを活用するフレームワークであるHoliSDiPについて述べる。提案手法では,セグメンテーションマスクとセグメンテーション・CLIPマップを介し,セグメンテーションの高精度なセグメンテーションガイダンスを導入しながら,セグメンテーションラベルを簡潔なテキストプロンプトとして利用する。広汎な実験により、HoliSDiPは、プロンプトノイズの低減と空間制御の強化により、様々なReal-ISRシナリオにおける画像品質が大幅に向上することを示した。

関連論文リスト

SRSR: Enhancing Semantic Accuracy in Real-World Image Super-Resolution with Spatially Re-Focused Text-Conditioning [59.013863248600046]
本稿では,空間的に再焦点を絞ったテキストコンディショニングを推論時に洗練する超解像フレームワークを提案する。第二に,非接地画素に対するテキストの影響を選択的に回避し,幻覚を防ぐ空間的自由誘導機構を導入する。
論文参考訳（メタデータ） (2025-10-26T05:03:55Z)
Seg4Diff: Unveiling Open-Vocabulary Segmentation in Text-to-Image Diffusion Transformers [56.76198904599581]
テキストと画像の拡散モデルは、言語翻訳において優れているため、モーダル間の注意機構を通じて暗黙的に概念を基礎づける。近年のマルチモーダル拡散トランスフォーマーでは, 共用画像とテキストトークンを導入し, よりリッチでスケーラブルなクロスモーダルアライメントを実現している。 MM-DiTの注意構造を分析するための体系的フレームワークであるSeg4Diffを導入し,テキストから画像への意味情報の伝達方法に着目した。
論文参考訳（メタデータ） (2025-09-22T17:59:54Z)
GS: Generative Segmentation via Label Diffusion [59.380173266566715]
言語駆動のイメージセグメンテーションは、自然言語表現に対応する画像の領域を分割するモデルを必要とする、視覚言語理解の基本的なタスクである。近年の拡散モデルがこの領域に導入されているが、既存のアプローチは画像中心のままである。生成タスクとしてセグメンテーション自体を定式化する新しいフレームワークであるGS(Generative Label)を提案する。実験の結果,GSは既存の差別的・拡散的手法を著しく上回り,言語駆動セグメンテーションのための新たな最先端技術が確立された。
論文参考訳（メタデータ） (2025-08-27T16:28:15Z)
DiffRIS: Enhancing Referring Remote Sensing Image Segmentation with Pre-trained Text-to-Image Diffusion Models [9.109484087832058]
DiffRISは、RRSISタスクのための事前訓練されたテキスト-画像拡散モデルのセマンティック理解機能を利用する新しいフレームワークである。我々のフレームワークは、文脈認識アダプタ(CP-adapter)とクロスモーダル推論デコーダ(PCMRD)の2つの重要なイノベーションを導入している。
論文参考訳（メタデータ） (2025-06-23T02:38:56Z)
Semantic-Guided Diffusion Model for Single-Step Image Super-Resolution [13.187007344274662]
拡散型画像超解像法 (SR) は顕著な性能を示した。最近の進歩は15段階から1段階まで推論を減少させる決定論的サンプリングプロセスを導入している。本稿では,セマンティックセグメンテーションマスクをサンプリングプロセスに組み込んだ意味誘導拡散フレームワークSAMSRを提案する。
論文参考訳（メタデータ） (2025-05-11T17:45:05Z)
MegaSR: Mining Customized Semantics and Expressive Guidance for Image Super-Resolution [76.30559905769859]
MegaSRは、カスタマイズされたブロックワイドセマンティクスと拡散ベースのISRのための表現的ガイダンスをマイニングする。我々は,HEDエッジマップ,深度マップ,セグメンテーションマップを最も表現力のあるガイダンスとして実験的に同定した。大規模な実験は、意味的豊かさと構造的整合性の観点からMegaSRの優位性を示す。
論文参考訳（メタデータ） (2025-03-11T07:00:20Z)
Data-Efficient Generalization for Zero-shot Composed Image Retrieval [67.46975191141928]
ZS-CIRは、トレーニングのために配布する三つ子を必要とせず、参照画像とテキスト記述に基づいて対象画像を検索することを目的としている。 1つの一般的なアプローチは、マッピングネットワークを用いてテキスト埋め込み空間内の擬似ワードトークンに画像埋め込みを転送するビジョン言語事前学習パラダイムである。テキスト・サプリメント(TS)モジュールとセマンティック・セット(S-Set)という2つの新しい設計を含む,データ効率の一般化(DeG)フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-07T07:49:31Z)
Semantic Segmentation Prior for Diffusion-Based Real-World Super-Resolution [22.655127409294554]
実世界の画像超解像(Real-ISR)は、大規模なテキスト・画像モデルを活用することで驚くべき飛躍を遂げた。本稿では,拡散に基づく画像の超解像への追加制御条件としてセマンティックセグメンテーションを提案する。
論文参考訳（メタデータ） (2024-12-04T02:11:09Z)
Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文参考訳（メタデータ） (2024-07-10T19:58:04Z)
Enhancing Label-efficient Medical Image Segmentation with Text-guided Diffusion Models [5.865983529245793]
TextDiffは、安価な医療用テキストアノテーションを通じて意味表現を改善する。その結果,TextDiffは,少数のトレーニングサンプルのみで,最先端のマルチモーダルセグメンテーション手法よりもはるかに優れていることがわかった。
論文参考訳（メタデータ） (2024-07-07T10:21:08Z)
EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models [52.3015009878545]
我々は、追加の訓練をすることなく、きめ細かなセグメンテーションマップを生成できる画像セグメンタを開発した。低次元特徴写像の空間的位置と画像画素間の意味的対応を同定する。大規模な実験では、生成したセグメンテーションマップがよく説明され、画像の細部を捉えることが示されている。
論文参考訳（メタデータ） (2024-01-22T07:34:06Z)
Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution [15.391125077873745]
Scene Text Image Super-Resolution (STISR)は、低解像度(LR)画像におけるテキストの解像度と可視性を高めることを目的としている。従来は差別的畳み込みニューラルネットワーク(CNN)を多種多様なテキストガイダンスで用いていた。本稿では,シーンテキスト画像の認識誘導拡散モデルであるRGDiffSRを紹介する。
論文参考訳（メタデータ） (2023-11-22T11:10:45Z)
RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文参考訳（メタデータ） (2023-05-31T06:59:21Z)
Image-Specific Information Suppression and Implicit Local Alignment for Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。 TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文参考訳（メタデータ） (2022-08-30T16:14:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。