論文の概要: Revisiting the Perception-Distortion Trade-off with Spatial-Semantic Guided Super-Resolution
- arxiv url: http://arxiv.org/abs/2603.14112v1
- Date: Sat, 14 Mar 2026 20:41:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.609052
- Title: Revisiting the Perception-Distortion Trade-off with Spatial-Semantic Guided Super-Resolution
- Title(参考訳): 空間意味的誘導型超解法による知覚歪みトレードオフの再検討
- Authors: Dan Wang, Haiyan Sun, Shan Du, Z. Jane Wang, Zhaochong An, Serge Belongie, Xinrui Cui,
- Abstract要約: SpaSemSRは2つの補完的なガイダンスを持つ空間意味誘導拡散フレームワークである。
第一に、空間的接地されたテキストガイダンスは、オブジェクトレベルの空間的手がかりを意味的なプロンプトと統合し、テキスト構造と視覚構造を整列させて歪みを低減する。
第二に、マルチエンコーダ設計とセマンティック劣化制約によるセマンティックエンハンスドビジュアルガイダンスは、多モーダルなセマンティック事前を統一し、重度劣化下での知覚リアリズムを改善する。
- 参考スコア(独自算出の注目度): 25.911279124430944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image super-resolution (SR) aims to reconstruct high resolution images with both high perceptual quality and low distortion, but is fundamentally limited by the perception-distortion trade-off. GAN-based SR methods reduce distortion but still struggle with realistic fine-grained textures, whereas diffusion-based approaches synthesize rich details but often deviate from the input, hallucinating structures and degrading fidelity. This tension raises a key challenge: how to exploit the powerful generative priors of diffusion models without sacrificing fidelity. To address this, we propose SpaSemSR, a spatial-semantic guided diffusion framework with two complementary guidances. First, spatial-grounded textual guidance integrates object-level spatial cues with semantic prompts, aligning textual and visual structures to reduce distortion. Second, semantic-enhanced visual guidance with a multi-encoder design and semantic degradation constraints unifies multimodal semantic priors, improving perceptual realism under severe degradations. These complementary guidances are adaptively fused into the diffusion process via spatial-semantic attention, suppressing distortion and hallucination while retaining the strengths of diffusion models. Extensive experiments on multiple benchmarks show that SpaSemSR achieves a superior perception-distortion balance, producing both realistic and faithful restorations.
- Abstract(参考訳): 画像超解像(SR)は、高い知覚品質と低歪みの両方で高解像度画像を再構成することを目的としているが、知覚歪トレードオフによって基本的に制限されている。
GANベースのSR法は歪みを減少させるが、依然として現実的なきめ細かいテクスチャに苦しむ一方、拡散に基づくアプローチは豊富な詳細を合成するが、しばしば入力、幻覚構造、分解フィディリティから逸脱する。
この緊張は、拡散モデルの強力な生成的先行を、忠実さを犠牲にすることなくどのように活用するかという重要な課題を提起する。
これを解決するために,2つの補完的なガイダンスを持つ空間意味的誘導拡散フレームワークであるSpaSemSRを提案する。
第一に、空間的接地されたテキストガイダンスは、オブジェクトレベルの空間的手がかりを意味的なプロンプトと統合し、テキスト構造と視覚構造を整列させて歪みを低減する。
第二に、マルチエンコーダ設計とセマンティック劣化制約によるセマンティックエンハンスドビジュアルガイダンスは、多モーダルなセマンティック事前を統一し、重度劣化下での知覚リアリズムを改善する。
これらの相補的なガイダンスは空間意味的注意を通して拡散過程に適応的に融合し、拡散モデルの強度を維持しながら歪みや幻覚を抑制する。
複数のベンチマークでの大規模な実験により、SpaSemSRはより優れた知覚・歪曲バランスを達成し、現実的かつ忠実な復元を生み出すことが示されている。
関連論文リスト
- Disentangled Textual Priors for Diffusion-based Image Super-Resolution [41.71306518338786]
Image Super-Resolutionは、劣化した低解像度入力から高解像度画像を再構成することを目的としている。
既存のアプローチは、グローバルなレイアウトとローカルな詳細を混ぜ合わせた、絡み合った、あるいは粗い粒度の前のものに依存することが多い。
DTPSRは,2つの相補的な次元に絡み合ったテキストの先行処理を導入する新しい拡散型SRフレームワークである。
論文 参考訳(メタデータ) (2026-03-08T03:02:55Z) - Rectifying Latent Space for Generative Single-Image Reflection Removal [16.341477336909765]
単一画像の除去は、既存の手法が崩壊した領域の構成を推論するのに苦労する、非常に不適切な問題である。
この研究は、編集目的の潜在拡散モデルを再設計し、高度に曖昧で層状な画像入力を効果的に知覚し、処理する。
論文 参考訳(メタデータ) (2025-12-06T09:16:14Z) - OmniScaleSR: Unleashing Scale-Controlled Diffusion Prior for Faithful and Realistic Arbitrary-Scale Image Super-Resolution [25.29121925794166]
任意スケール超解像(ASSR)は、固定スケール(例:4x)でのみ動作する従来の超解像法(SR)の限界を克服する
近年の拡散型現実画像超解像(Real-ISR)モデルでは, 強力な事前学習による拡散の先行処理を生かし, 4x設定で印象的な結果を示した。
OmniScaleSRは,高忠実度と高現実性の両方を実現するために設計された,拡散に基づくリアルな任意のスケールのSRフレームワークである。
論文 参考訳(メタデータ) (2025-12-04T11:50:17Z) - Edit2Perceive: Image Editing Diffusion Models Are Strong Dense Perceivers [55.15722080205737]
Edit2Perceiveは、深度、正規度、マッティングの編集モデルを適応させる統合拡散フレームワークである。
私たちの単一ステップの決定論的推論は、比較的小さなデータセットでトレーニングしながら、より高速なランタイムをもたらす。
論文 参考訳(メタデータ) (2025-11-24T01:13:51Z) - SRSR: Enhancing Semantic Accuracy in Real-World Image Super-Resolution with Spatially Re-Focused Text-Conditioning [59.013863248600046]
本稿では,空間的に再焦点を絞ったテキストコンディショニングを推論時に洗練する超解像フレームワークを提案する。
第二に,非接地画素に対するテキストの影響を選択的に回避し,幻覚を防ぐ空間的自由誘導機構を導入する。
論文 参考訳(メタデータ) (2025-10-26T05:03:55Z) - Boosting Fidelity for Pre-Trained-Diffusion-Based Low-Light Image Enhancement via Condition Refinement [63.54516423266521]
事前学習拡散ベース(PTDB)法は、しばしばコンテンツ忠実さを犠牲にして知覚的リアリズムを高める。
本稿では,事前学習した拡散モデルにおける条件付けのための新しい最適化手法を提案する。
我々のアプローチはプラグアンドプレイであり、より効率的な制御を提供するために既存の拡散ネットワークにシームレスに統合される。
論文 参考訳(メタデータ) (2025-10-20T02:40:06Z) - One-Step Diffusion-based Real-World Image Super-Resolution with Visual Perception Distillation [53.24542646616045]
画像超解像(SR)生成に特化して設計された新しい視覚知覚拡散蒸留フレームワークであるVPD-SRを提案する。
VPD-SRは2つのコンポーネントから構成される: 明示的セマンティック・アウェア・スーパービジョン(ESS)と高周波知覚(HFP)損失。
提案したVPD-SRは,従来の最先端手法と教師モデルの両方と比較して,たった1ステップのサンプリングで優れた性能が得られる。
論文 参考訳(メタデータ) (2025-06-03T08:28:13Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Enhanced Semantic Extraction and Guidance for UGC Image Super Resolution [18.058473238611725]
本稿では,拡散フレームワークにセマンティックガイダンスを組み込むことにより,画像超解像に対する新しいアプローチを提案する。
本手法は,野生データセットと合成データセットの劣化の矛盾に対処する。
我々のモデルは、CVIRE 2025Short-form Image Super-Resolution Challengeで2位を獲得した。
論文 参考訳(メタデータ) (2025-04-14T05:26:24Z) - Denoising as Adaptation: Noise-Space Domain Adaptation for Image Restoration [64.84134880709625]
拡散モデルを用いて,雑音空間を介して領域適応を行うことが可能であることを示す。
特に、補助的な条件入力が多段階の復調過程にどのように影響するかというユニークな性質を活用することにより、有意義な拡散損失を導出する。
拡散モデルにおけるチャネルシャッフル層や残留スワッピング型コントラスト学習などの重要な戦略を提案する。
論文 参考訳(メタデータ) (2024-06-26T17:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。