論文の概要: Semantic Segmentation Prior for Diffusion-Based Real-World Super-Resolution
- arxiv url: http://arxiv.org/abs/2412.02960v1
- Date: Wed, 04 Dec 2024 02:11:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:08:28.271700
- Title: Semantic Segmentation Prior for Diffusion-Based Real-World Super-Resolution
- Title(参考訳): 拡散に基づく実世界の超解法に先立つセマンティックセグメンテーション
- Authors: Jiahua Xiao, Jiawei Zhang, Dongqing Zou, Xiaodan Zhang, Jimmy Ren, Xing Wei,
- Abstract要約: 実世界の画像超解像(Real-ISR)は、大規模なテキスト・画像モデルを活用することで驚くべき飛躍を遂げた。
本稿では,拡散に基づく画像の超解像への追加制御条件としてセマンティックセグメンテーションを提案する。
- 参考スコア(独自算出の注目度): 22.655127409294554
- License:
- Abstract: Real-world image super-resolution (Real-ISR) has achieved a remarkable leap by leveraging large-scale text-to-image models, enabling realistic image restoration from given recognition textual prompts. However, these methods sometimes fail to recognize some salient objects, resulting in inaccurate semantic restoration in these regions. Additionally, the same region may have a strong response to more than one prompt and it will lead to semantic ambiguity for image super-resolution. To alleviate the above two issues, in this paper, we propose to consider semantic segmentation as an additional control condition into diffusion-based image super-resolution. Compared to textual prompt conditions, semantic segmentation enables a more comprehensive perception of salient objects within an image by assigning class labels to each pixel. It also mitigates the risks of semantic ambiguities by explicitly allocating objects to their respective spatial regions. In practice, inspired by the fact that image super-resolution and segmentation can benefit each other, we propose SegSR which introduces a dual-diffusion framework to facilitate interaction between the image super-resolution and segmentation diffusion models. Specifically, we develop a Dual-Modality Bridge module to enable updated information flow between these two diffusion models, achieving mutual benefit during the reverse diffusion process. Extensive experiments show that SegSR can generate realistic images while preserving semantic structures more effectively.
- Abstract(参考訳): 実世界の画像超解像(Real-ISR)は、大規模テキスト・画像モデルを活用することで、与えられた認識テキストのプロンプトからリアルな画像復元を可能にすることで、驚くべき飛躍を遂げた。
しかし、これらの手法は、時には一部の正常な対象を認識するのに失敗し、これらの領域における不正確な意味的復元をもたらすことがある。
さらに、同じ領域が複数のプロンプトに対して強い反応を示し、画像の超解像に対する意味的曖昧性をもたらす。
本稿では,この2つの問題を緩和するために,拡散に基づく超解像へのセグメンテーションの付加的な制御条件として,セグメンテーションを提案する。
テキストのプロンプト条件と比較して、セマンティックセグメンテーションは、各ピクセルにクラスラベルを割り当てることで、画像内のより包括的なオブジェクトの認識を可能にする。
また、各空間領域に対象を明示的に割り当てることで、意味的あいまいさのリスクを軽減する。
実際には、画像超解像とセグメント化が互いに利益をもたらすという事実に着想を得て、画像超解像とセグメント化拡散モデル間の相互作用を容易にする二重拡散フレームワークであるSegSRを提案する。
具体的には、2つの拡散モデル間で更新された情報の流れを可能とし、逆拡散過程における相互利益を達成するために、デュアルモードブリッジモジュールを開発する。
大規模な実験により、SegSRはより効果的にセマンティック構造を保ちながらリアルなイメージを生成できることが示されている。
関連論文リスト
- Leveraging Adaptive Implicit Representation Mapping for Ultra High-Resolution Image Segmentation [19.87987918759425]
入射表現マッピング(IRM)は、画像特徴を任意の連続分解能に変換することができ、超高分解能画像分割精細化のための強力な能力を示す。
IRMをベースとした現在の超高解像度画像分割法は、画像の特徴を抽出するためにCNNベースのエンコーダに依存することが多い。
超高解像度イメージ関数に対して,新たに提案したImplicit Representation Mapping (AIRM) を利用した新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-31T00:34:37Z) - EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models [52.3015009878545]
我々は、追加の訓練をすることなく、きめ細かなセグメンテーションマップを生成できる画像セグメンタを開発した。
低次元特徴写像の空間的位置と画像画素間の意味的対応を同定する。
大規模な実験では、生成したセグメンテーションマップがよく説明され、画像の細部を捉えることが示されている。
論文 参考訳(メタデータ) (2024-01-22T07:34:06Z) - Layered Rendering Diffusion Model for Controllable Zero-Shot Image Synthesis [15.76266032768078]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
まず、摂動分布の基本的な空間的キューとして視覚誘導を導入する。
本稿では,複数のレイヤからなる画像レンダリングプロセスを構築する汎用フレームワークであるLayered Rendering Diffusion (LRDiff)を提案する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - SeeSR: Towards Semantics-Aware Real-World Image Super-Resolution [16.815468458589635]
生成した実世界の画像の超解像のセマンティックな忠実さをよりよく保存するためのセマンティックス・アウェア・アプローチを提案する。
まず, 高精度なソフト・ハード・セマンティック・プロンプトを高い劣化下でも生成できる劣化対応プロンプト抽出器を訓練する。
実験により,本手法はよりリアルな画像の詳細を再現し,セマンティクスをよりよく保持できることが示された。
論文 参考訳(メタデータ) (2023-11-27T18:11:19Z) - SAIR: Learning Semantic-aware Implicit Representation [23.842761556556216]
画像の暗示表現は、連続領域の任意の座標を対応する色値にマッピングすることができる。
既存の暗黙の表現アプローチは、連続した外見マッピングの構築にのみ焦点をあてる。
我々は,意味認識型暗黙表現(SAIR)を学習し,各画素の暗黙表現をその外観と意味情報の両方に依存するようにした。
論文 参考訳(メタデータ) (2023-10-13T17:52:16Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - Unsupervised Domain Adaptation for Semantic Segmentation using One-shot
Image-to-Image Translation via Latent Representation Mixing [9.118706387430883]
超高解像度画像のセマンティックセグメンテーションのための新しい教師なし領域適応法を提案する。
潜在コンテンツ表現をドメイン間で混合するエンコーダ・デコーダの原理に基づいて,画像から画像への変換パラダイムを提案する。
都市間比較実験により,提案手法は最先端領域適応法より優れていることが示された。
論文 参考訳(メタデータ) (2022-12-07T18:16:17Z) - Towards Effective Image Manipulation Detection with Proposal Contrastive
Learning [61.5469708038966]
本稿では,効果的な画像操作検出のためのコントラスト学習(PCL)を提案する。
我々のPCLは、RGBとノイズビューから2種類のグローバル特徴を抽出し、2ストリームアーキテクチャで構成されている。
我々のPCLは、実際にラベル付けされていないデータに容易に適用でき、手作業によるラベル付けコストを削減し、より一般化可能な機能を促進することができる。
論文 参考訳(メタデータ) (2022-10-16T13:30:13Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - BoundarySqueeze: Image Segmentation as Boundary Squeezing [104.43159799559464]
本研究では,オブジェクトとシーンの微細な高画質画像分割のための新しい手法を提案する。
形態素画像処理技術による拡張と浸食に着想を得て,画素レベルのセグメンテーション問題をスクイーズ対象境界として扱う。
提案手法は,COCO,Cityscapesのインスタンス・セグメンテーション・セグメンテーション・セグメンテーションにおいて大きく向上し,同一条件下での精度・速度ともに従来のPointRendよりも優れていた。
論文 参考訳(メタデータ) (2021-05-25T04:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。