論文の概要: DACESR: Degradation-Aware Conditional Embedding for Real-World Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2602.23890v1
- Date: Fri, 27 Feb 2026 10:29:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.373502
- Title: DACESR: Degradation-Aware Conditional Embedding for Real-World Image Super-Resolution
- Title(参考訳): DACESR: リアルタイム画像超解像のための劣化認識条件埋め込み
- Authors: Xiaoyan Lei, Wenlong Zhang, Biao Luo, Hui Liang, Weifeng Cao, Qiuting Lin,
- Abstract要約: 本稿では、劣化画像に対する認識任意のモデル(RAM)の機能を再検討する。
本稿では,劣化画像の認識性能を著しく向上するReal Embedding Extractor (REE)を提案する。
実験により、REEは画像の超解像ネットワークが忠実さと知覚品質のバランスをとるのに有効であることが示された。
- 参考スコア(独自算出の注目度): 22.259904487405013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large models have shown excellent ability in addressing image super-resolution in real-world scenarios by leveraging language class as condition information, yet their abilities in degraded images remain limited. In this paper, we first revisit the capabilities of the Recognize Anything Model (RAM) for degraded images by calculating text similarity. We find that directly using contrastive learning to fine-tune RAM in the degraded space is difficult to achieve acceptable results. To address this issue, we employ a degradation selection strategy to propose a Real Embedding Extractor (REE), which achieves significant recognition performance gain on degraded image content through contrastive learning. Furthermore, we use a Conditional Feature Modulator (CFM) to incorporate the high-level information of REE for a powerful Mamba-based network, which can leverage effective pixel information to restore image textures and produce visually pleasing results. Extensive experiments demonstrate that the REE can effectively help image super-resolution networks balance fidelity and perceptual quality, highlighting the great potential of Mamba in real-world applications. The source code of this work will be made publicly available at: https://github.com/nathan66666/DACESR.git
- Abstract(参考訳): マルチモーダルな大規模モデルは、言語クラスを条件情報として活用することで、現実のシナリオで画像の超解像に対処する優れた能力を示したが、劣化した画像におけるそれらの能力は限定的のままである。
本稿では,テキストの類似性を計算することにより,劣化画像に対する認識任意のモデル(RAM)の機能を再検討する。
コントラスト学習を用いて、劣化した空間のRAMを微調整することは、許容できる結果を得るのが困難であることがわかった。
この問題に対処するために、コントラスト学習による劣化画像コンテンツに対する認識性能の顕著な向上を実現するReal Embedding Extractor (REE)を提案するために、分解選択方式を用いる。
さらに、コンディショナル・フィーチャー・モジュレータ(CFM)を用いて、強力なマンバベースのネットワークにREEの高レベル情報を組み込むことにより、画像テクスチャを復元し、視覚的に楽しむ結果を得ることができる。
大規模な実験により、REEは画像の超解像性ネットワークと知覚的品質のバランスを効果的に支援し、現実世界のアプリケーションにおけるMambaの大きな可能性を浮き彫りにしている。
この作業のソースコードは、https://github.com/nathan66666/DACESR.gitで公開されます。
関連論文リスト
- Perceive, Understand and Restore: Real-World Image Super-Resolution with Autoregressive Multimodal Generative Models [33.76031793753807]
我々は、自己回帰型マルチモーダルモデルLumina-mGPTを堅牢なReal-ISRモデル、すなわちPUREに適応する。
PUREは入力された低画質の画像を認識して理解し、高品質の画像を復元する。
実験により、PUREはリアルな細部を生成しながら、画像の内容を保存していることが示された。
論文 参考訳(メタデータ) (2025-03-14T04:33:59Z) - Multi-Scale Representation Learning for Image Restoration with State-Space Model [13.622411683295686]
効率的な画像復元のためのマルチスケール状態空間モデル(MS-Mamba)を提案する。
提案手法は,計算複雑性を低く保ちながら,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-19T16:42:58Z) - PixMamba: Leveraging State Space Models in a Dual-Level Architecture for Underwater Image Enhancement [7.443057703389351]
水中画像強調(UIE)は海洋調査や探査に重要であるが、複雑な色歪みと激しいぼやけによって妨げられている。
近年のディープラーニングに基づく手法は目覚ましい成果を上げているが、これらの手法は高い計算コストと不十分なグローバルモデリングに苦慮している。
我々は,ステートスペースモデル(SSM)を活用して,効率的なグローバル依存性モデリングを実現することにより,これらの課題を克服するために設計された新しいアーキテクチャであるPixMambaを提案する。
論文 参考訳(メタデータ) (2024-06-12T17:34:38Z) - Efficient Visual State Space Model for Image Deblurring [99.54894198086852]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
提案したEVSSMは、ベンチマークデータセットや実世界の画像に対する最先端の手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - CoSeR: Bridging Image and Language for Cognitive Super-Resolution [74.24752388179992]
本稿では,低解像度画像の理解能力を備えたSRモデルを実現するCoSeR(Cognitive Super-Resolution)フレームワークを提案する。
画像の外観と言語理解を組み合わせることで、認知的な埋め込みを生成する。
画像の忠実度をさらに向上させるため、「オール・イン・アテンション」と呼ばれる新しい条件注入方式を提案する。
論文 参考訳(メタデータ) (2023-11-27T16:33:29Z) - HAT: Hybrid Attention Transformer for Image Restoration [59.69448362233234]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-09-11T05:17:55Z) - Towards Real-World Burst Image Super-Resolution: Benchmark and Method [93.73429028287038]
本稿では,複数のフレームから画像の詳細を忠実に再構成する大規模リアルタイムバースト超解像データセットであるRealBSRを確立する。
また,FBAnet(Federated Burst Affinity Network)を導入し,実世界の画像劣化下での画像間の非自明な画素幅の変位について検討する。
論文 参考訳(メタデータ) (2023-09-09T14:11:37Z) - RBSR: Efficient and Flexible Recurrent Network for Burst
Super-Resolution [57.98314517861539]
バースト超解像(BurstSR)は、高解像度(HR)画像を低解像度(LR)画像と雑音画像から再構成することを目的としている。
本稿では,効率よくフレキシブルなリカレントネットワークでフレーム単位のキューを融合させることを提案する。
論文 参考訳(メタデータ) (2023-06-30T12:14:13Z) - Unsupervised Real Image Super-Resolution via Generative Variational
AutoEncoder [47.53609520395504]
古典的な例に基づく画像超解法を再考し、知覚的画像超解法のための新しい生成モデルを考案する。
本稿では,変分オートエンコーダを用いた共同画像デノベーションと超解像モデルを提案する。
判別器の助けを借りて、超分解能サブネットワークのオーバーヘッドを加味して、分解された画像をフォトリアリスティックな視覚的品質で超解凍する。
論文 参考訳(メタデータ) (2020-04-27T13:49:36Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。