論文の概要: SCEESR: Semantic-Control Edge Enhancement for Diffusion-Based Super-Resolution
- arxiv url: http://arxiv.org/abs/2510.19272v1
- Date: Wed, 22 Oct 2025 06:06:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.149178
- Title: SCEESR: Semantic-Control Edge Enhancement for Diffusion-Based Super-Resolution
- Title(参考訳): SCEESR:拡散型超解法のセマンティック・コントロルエッジ強化
- Authors: Yun Kai Zhuang,
- Abstract要約: 現実世界の超解像は複雑な劣化と固有の再構成の曖昧さに対処しなければならない。
一段階拡散モデルは速度を提供するが、蒸留品による構造的不正確さをしばしば生み出す。
セマンティックエッジガイダンスのための制御ネット機構を用いて,一段階拡散モデルを強化する新しいSRフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.8122270502556375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world image super-resolution (Real-ISR) must handle complex degradations and inherent reconstruction ambiguities. While generative models have improved perceptual quality, a key trade-off remains with computational cost. One-step diffusion models offer speed but often produce structural inaccuracies due to distillation artifacts. To address this, we propose a novel SR framework that enhances a one-step diffusion model using a ControlNet mechanism for semantic edge guidance. This integrates edge information to provide dynamic structural control during single-pass inference. We also introduce a hybrid loss combining L2, LPIPS, and an edge-aware AME loss to optimize for pixel accuracy, perceptual quality, and geometric precision. Experiments show our method effectively improves structural integrity and realism while maintaining the efficiency of one-step generation, achieving a superior balance between output quality and inference speed. The results of test datasets will be published at https://drive.google.com/drive/folders/1amddXQ5orIyjbxHgGpzqFHZ6KTolinJF?usp=drive_link and the related code will be published at https://github.com/ARBEZ-ZEBRA/SCEESR.
- Abstract(参考訳): 実世界の超解像(Real-ISR)は複雑な劣化と固有の再構成の曖昧さを扱う必要がある。
生成モデルは知覚品質を改善したが、重要なトレードオフは計算コストである。
一段階拡散モデルは速度を提供するが、蒸留品による構造上の不正確さをしばしば生み出す。
そこで本研究では,セマンティックエッジガイダンスのための制御ネット機構を用いて,一段階拡散モデルを強化する新しいSRフレームワークを提案する。
これはエッジ情報を統合し、シングルパス推論時の動的構造制御を提供する。
また,L2,LPIPS,エッジ対応AMEロスを組み合わせたハイブリッドロスを導入し,画素精度,知覚品質,幾何学的精度を最適化した。
実験により, 1段階生成の効率を維持しつつ, 構造的整合性とリアリズムを効果的に向上し, 出力品質と推論速度のバランスが良好であることを示す。
テストデータセットの結果はhttps://drive.google.com/drive/folders/1amddXQ5orIyjbxHgGpzqFH6KTolinJF?
https://github.com/ARBEZ-ZEBRA/SCEESR.usp=drive_linkと関連するコードは、https://github.com/ARBEZ-ZEBRA/SCEESR.comで公開される。
関連論文リスト
- Joint Geometric and Trajectory Consistency Learning for One-Step Real-World Super-Resolution [14.52346301984322]
拡散に基づくReal-World Image Super-Resolution (Real-ISR)は、印象的な知覚品質を実現するが、反復サンプリングによる高い計算コストに悩まされる。
本稿では,GTASR(Geometric Trajectory Alignment Super-Resolution)を提案する。
論文 参考訳(メタデータ) (2026-02-27T18:13:31Z) - HQP: Sensitivity-Aware Hybrid Quantization and Pruning for Ultra-Low-Latency Edge AI Inference [0.0]
相乗的モデル加速を実現するために設計されたHybrid Quantization and Pruning (HQP)フレームワーク。
HQPフレームワークは3.12倍の推論速度向上と55%のモデルサイズ縮小を実現している。
論文 参考訳(メタデータ) (2026-02-02T18:17:45Z) - Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders [74.72147962028265]
表現オートエンコーダ(RAE)は、ImageNet上で拡散モデリングにおいて明確な利点を示している。
本稿では,このフレームワークが大規模でフリーフォームなテキスト・ツー・イメージ(T2I)生成に拡張できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-01-22T18:58:16Z) - ScaleDiff: Higher-Resolution Image Synthesis via Efficient and Model-Agnostic Diffusion [7.233066974580282]
テキストと画像の拡散モデルは、トレーニングの解像度を超える画像を生成する際に、しばしば劣化した性能を示す。
最近のトレーニングフリーな手法は、この制限を緩和することができるが、かなりの計算を必要とする場合や、最近の拡散変換器モデルと互換性がない場合が多い。
本研究では,事前学習した拡散モデルの解法を,追加の訓練なしに拡張するためのモデル非依存かつ高効率なフレームワークであるScaleDiffを提案する。
論文 参考訳(メタデータ) (2025-10-29T17:17:32Z) - KDC-Diff: A Latent-Aware Diffusion Model with Knowledge Retention for Memory-Efficient Image Generation [2.0250638970950905]
KDC-Diffは、ハイパフォーマンスを維持しながら計算オーバーヘッドを大幅に削減するために設計された、新しくスケーラブルな生成フレームワークである。
本モデルでは,FID,CLIP,KID,LPIPSの指標に対して,パラメータ数,推論時間,FLOPの大幅な削減を実現し,高い性能を示す。
論文 参考訳(メタデータ) (2025-05-11T14:40:51Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。
本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-31T21:47:05Z) - DeblurDiNAT: A Compact Model with Exceptional Generalization and Visual Fidelity on Unseen Domains [1.5124439914522694]
DeDiNATはDilated Neighborhood Attentionに基づくデブロアリングトランスフォーマーである。
チャンネル横断学習者は、隣接するチャンネル間の短距離関係を理解するためにトランスフォーマーブロックを支援する。
最先端モデルと比較して、コンパクトなDeDiNATはより優れた一般化能力を示し、知覚的メトリクスにおいて顕著な性能を達成する。
論文 参考訳(メタデータ) (2024-03-19T21:31:31Z) - DiffSCI: Zero-Shot Snapshot Compressive Imaging via Iterative Spectral
Diffusion Model [18.25548360119976]
マルチスペクトル画像(MSI)におけるスナップショット圧縮画像(SCI)再構成の精度向上を目指した。
DiffSCIと呼ばれる新しいゼロショット拡散モデルを提案する。
我々は,DiffSCIが自己監督的,ゼロショット的アプローチよりも顕著な性能向上を示すことを示すため,広範囲な試験を行った。
論文 参考訳(メタデータ) (2023-11-19T20:27:14Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。