論文の概要: SRSR: Enhancing Semantic Accuracy in Real-World Image Super-Resolution with Spatially Re-Focused Text-Conditioning
- arxiv url: http://arxiv.org/abs/2510.22534v1
- Date: Sun, 26 Oct 2025 05:03:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.237447
- Title: SRSR: Enhancing Semantic Accuracy in Real-World Image Super-Resolution with Spatially Re-Focused Text-Conditioning
- Title(参考訳): SRSR:空間的再焦点テキストコンディショニングによる実世界の超解像における意味的精度向上
- Authors: Chen Chen, Majid Abdolshah, Violetta Shevchenko, Hongdong Li, Chang Xu, Pulak Purkait,
- Abstract要約: 本稿では,空間的に再焦点を絞ったテキストコンディショニングを推論時に洗練する超解像フレームワークを提案する。
第二に,非接地画素に対するテキストの影響を選択的に回避し,幻覚を防ぐ空間的自由誘導機構を導入する。
- 参考スコア(独自算出の注目度): 59.013863248600046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing diffusion-based super-resolution approaches often exhibit semantic ambiguities due to inaccuracies and incompleteness in their text conditioning, coupled with the inherent tendency for cross-attention to divert towards irrelevant pixels. These limitations can lead to semantic misalignment and hallucinated details in the generated high-resolution outputs. To address these, we propose a novel, plug-and-play spatially re-focused super-resolution (SRSR) framework that consists of two core components: first, we introduce Spatially Re-focused Cross-Attention (SRCA), which refines text conditioning at inference time by applying visually-grounded segmentation masks to guide cross-attention. Second, we introduce a Spatially Targeted Classifier-Free Guidance (STCFG) mechanism that selectively bypasses text influences on ungrounded pixels to prevent hallucinations. Extensive experiments on both synthetic and real-world datasets demonstrate that SRSR consistently outperforms seven state-of-the-art baselines in standard fidelity metrics (PSNR and SSIM) across all datasets, and in perceptual quality measures (LPIPS and DISTS) on two real-world benchmarks, underscoring its effectiveness in achieving both high semantic fidelity and perceptual quality in super-resolution.
- Abstract(参考訳): 既存の拡散に基づく超解法は、テキスト条件付けにおける不正確さと不完全さによる意味的曖昧さをしばしば示し、無関係なピクセルに対してクロスアテンションが発散する固有の傾向を伴っている。
これらの制限は、生成された高解像度出力のセマンティックなミスアライメントと幻覚的な詳細をもたらす可能性がある。
そこで我々は,2つの中核成分からなる,プラグアンドプレイの空間再焦点超解像(SRSR)フレームワークを提案する。まず,空間再焦点クロスアテンション(SRCA)を導入し,視覚的グラウンドのセグメンテーションマスクを用いて,推論時にテキスト条件を洗練し,クロスアテンションをガイドする。
第2に,非接地画素に対するテキストの影響を選択的に回避し,幻覚を防止するための空間目標分類自由誘導(STCFG)機構を導入する。
合成と実世界の両方のデータセットに対する大規模な実験により、SRSRはすべてのデータセットで標準忠実度測定(PSNRとSSIM)の7つの最先端ベースラインを一貫して上回り、2つの実世界のベンチマークにおける知覚品質測定(LPIPSとdisTS)において、超解像度における高セマンティック忠実度と知覚品質の両方を達成する効果を実証している。
関連論文リスト
- HRSeg: High-Resolution Visual Perception and Enhancement for Reasoning Segmentation [74.1872891313184]
HRSegは高精細な知覚を持つ効率的なモデルである。
高分解能知覚(HRP)と高分解能増強(HRE)の2つの重要な革新を特徴としている。
論文 参考訳(メタデータ) (2025-07-17T08:09:31Z) - Controllable Reference Guided Diffusion with Local Global Fusion for Real World Remote Sensing Image Super Resolution [9.658727475375565]
超解像技術は、リモートセンシング画像の空間分解能を高め、より効率的な大規模な地球観測アプリケーションを可能にする。
既存のRefSR手法は、クロスセンサーの解像度ギャップや重要な土地被覆の変化など、現実世界の複雑さに苦しむ。
実世界リモートセンシング画像SRのための新しい制御可能な参照誘導拡散モデルであるCRefDiffを提案する。
論文 参考訳(メタデータ) (2025-06-30T12:45:28Z) - DiffRIS: Enhancing Referring Remote Sensing Image Segmentation with Pre-trained Text-to-Image Diffusion Models [9.109484087832058]
DiffRISは、RRSISタスクのための事前訓練されたテキスト-画像拡散モデルのセマンティック理解機能を利用する新しいフレームワークである。
我々のフレームワークは、文脈認識アダプタ(CP-adapter)とクロスモーダル推論デコーダ(PCMRD)の2つの重要なイノベーションを導入している。
論文 参考訳(メタデータ) (2025-06-23T02:38:56Z) - Unsupervised Image Super-Resolution Reconstruction Based on Real-World Degradation Patterns [4.977925450373957]
超解像再構成モデルのトレーニングのための新しいTripleGANフレームワークを提案する。
このフレームワークは、LR観測から実世界の劣化パターンを学習し、対応する劣化特性を持つデータセットを合成する。
本手法は, 過スムーズなアーティファクトを伴わずに, 鋭い復元を維持しながら, 定量的な測定値に明らかな利点を示す。
論文 参考訳(メタデータ) (2025-06-20T14:24:48Z) - One-Step Diffusion-based Real-World Image Super-Resolution with Visual Perception Distillation [53.24542646616045]
画像超解像(SR)生成に特化して設計された新しい視覚知覚拡散蒸留フレームワークであるVPD-SRを提案する。
VPD-SRは2つのコンポーネントから構成される: 明示的セマンティック・アウェア・スーパービジョン(ESS)と高周波知覚(HFP)損失。
提案したVPD-SRは,従来の最先端手法と教師モデルの両方と比較して,たった1ステップのサンプリングで優れた性能が得られる。
論文 参考訳(メタデータ) (2025-06-03T08:28:13Z) - Embedding Similarity Guided License Plate Super Resolution [3.16770435670322]
本研究では,画素ベース損失と埋め込み類似性学習を組み合わせた新しいフレームワークを提案する。
CCPDおよびPKUデータセットの実験により,提案フレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2025-01-02T18:42:07Z) - HoliSDiP: Image Super-Resolution via Holistic Semantics and Diffusion Prior [62.04939047885834]
本稿では,意味的セグメンテーションを活用するフレームワークであるHoliSDiPについて述べる。
本手法では, セグメンテーションマスクと空間CLIPマップを用いて, セグメンテーションガイダンスを導入しながら, セグメンテーションラベルを簡潔なテキストプロンプトとして利用する。
論文 参考訳(メタデータ) (2024-11-27T15:22:44Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。