論文の概要: UHD Image Dehazing via anDehazeFormer with Atmospheric-aware KV Cache
- arxiv url: http://arxiv.org/abs/2505.14010v1
- Date: Tue, 20 May 2025 07:04:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.845726
- Title: UHD Image Dehazing via anDehazeFormer with Atmospheric-aware KV Cache
- Title(参考訳): 大気圧対応KVキャッシュ付きAnDehazeFormerによるUHD画像のデハージング
- Authors: Pu Wang, Pengwen Dai, Chen Wu, Yeying Jin, Dianjie Lu, Guijuan Zhang, Youshan Zhang, Zhuoran Zheng,
- Abstract要約: 超高精細画像デハージング(UHD)のための効率的なビジュアルトランスフォーマーフレームワークを提案する。
提案アーキテクチャでは、トレーニング収束速度を textbf5 $times$ で改善し、メモリオーバーヘッドを低減している。
提案手法は,4K/8K画像復元タスクの計算効率を大幅に向上させながら,最先端の脱ハージング品質を維持している。
- 参考スコア(独自算出の注目度): 22.67146255766633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose an efficient visual transformer framework for ultra-high-definition (UHD) image dehazing that addresses the key challenges of slow training speed and high memory consumption for existing methods. Our approach introduces two key innovations: 1) an \textbf{a}daptive \textbf{n}ormalization mechanism inspired by the nGPT architecture that enables ultra-fast and stable training with a network with a restricted range of parameter expressions; and 2) we devise an atmospheric scattering-aware KV caching mechanism that dynamically optimizes feature preservation based on the physical haze formation model. The proposed architecture improves the training convergence speed by \textbf{5 $\times$} while reducing memory overhead, enabling real-time processing of 50 high-resolution images per second on an RTX4090 GPU. Experimental results show that our approach maintains state-of-the-art dehazing quality while significantly improving computational efficiency for 4K/8K image restoration tasks. Furthermore, we provide a new dehazing image interpretable method with the help of an integrated gradient attribution map. Our code can be found here: https://anonymous.4open.science/r/anDehazeFormer-632E/README.md.
- Abstract(参考訳): 本稿では,学習速度の遅さと既存手法の高メモリ消費の鍵となる課題に対処する,超高精細(UHD)画像デハジングのための効率的なビジュアルトランスフォーマフレームワークを提案する。
このアプローチには2つの重要なイノベーションがあります。
1) nGPTアーキテクチャにインスパイアされた \textbf{a}daptive \textbf{n}ormalization 機構により、パラメータ表現の範囲が制限されたネットワークによる超高速で安定したトレーニングが可能になる。
2) 物理ヘイズ生成モデルに基づく特徴保存を動的に最適化する大気散乱対応KVキャッシング機構を考案する。
提案アーキテクチャでは,メモリオーバーヘッドを低減し,RTX4090 GPU上で毎秒50の高解像度画像のリアルタイム処理を実現することにより,トレーニング収束速度の向上を実現している。
実験の結果,4K/8K画像復元作業の計算効率は著しく向上し,最先端の脱ハージング品質を維持していることがわかった。
さらに、統合的な勾配属性マップの助けを借りて、新しいデハージング画像解釈法を提案する。
私たちのコードは、https://anonymous.4open.science/r/anDehazeFormer-632E/README.md.com/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/ s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/
関連論文リスト
- ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration [75.0053551643052]
本稿では、高解像度画像復元のための効率性、スケーラビリティ、長距離モデリングを向上する新しいフレームワークZipIRを紹介する。
ZipIRは画像32xを圧縮する高度に圧縮された潜在表現を使用し、空間トークンの数を効果的に削減する。
ZipIRは既存の拡散ベースの手法を超越し、高度に劣化した入力からの高解像度画像の復元において、未整合の速度と品質を提供する。
論文 参考訳(メタデータ) (2025-04-11T14:49:52Z) - Striving for Faster and Better: A One-Layer Architecture with Auto Re-parameterization for Low-Light Image Enhancement [50.93686436282772]
我々は、視覚的品質と計算効率の両方から、画像エンハンサーの限界を掘り下げることを目指している。
タスク要求を再考することにより、視覚的品質と計算効率がモデル学習と構造設計に対応する、明示的な接続を構築する。
最終的には、単一の畳み込み層のみを使用して、優れた視覚的品質を維持しながら、効率的な低照度画像強調を実現する。
論文 参考訳(メタデータ) (2025-02-27T08:20:03Z) - Directing Mamba to Complex Textures: An Efficient Texture-Aware State Space Model for Image Restoration [75.51789992466183]
TAMAMbaIRは画像テクスチャの達成と性能と効率のトレードオフを同時に知覚する。
画像超解像, デラリニング, 低照度画像強調のためのベンチマーク実験により, TAMAMbaIRは高い効率で最先端の性能を達成できることを示した。
論文 参考訳(メタデータ) (2025-01-27T23:53:49Z) - VISION-XL: High Definition Video Inverse Problem Solver using Latent Image Diffusion Models [58.464465016269614]
本稿では,遅延画像拡散モデルを用いた高精細ビデオ逆問題の解法を提案する。
提案手法は,NVIDIA 4090 GPUの1フレームあたり6秒未満でHD解像度の再構成を実現する。
論文 参考訳(メタデータ) (2024-11-29T08:10:49Z) - Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient [52.96232442322824]
CoDe(Collaborative Decoding)は、Visual Auto-Regressive (VAR)フレームワーク用に設計された、新しい効率的なデコーディング戦略である。
CoDeは、大規模でのパラメータ要求の大幅な削減と、異なるスケールでの排他的生成パターンという、2つの重要な観察に乗じている。
CoDeは1.7倍のスピードアップを実現し、メモリ使用量を約50%削減し、画像品質を1.95から1.98に改善した。
論文 参考訳(メタデータ) (2024-11-26T15:13:15Z) - TSFormer: A Robust Framework for Efficient UHD Image Restoration [7.487270862599671]
TSFormerは、textbfTrusted LearningとtextbfSparsificationを統合するオールインワンフレームワークである。
我々のモデルは3.38Mパラメータを持つ4K画像をリアルタイムで(40fps)実行することができる。
論文 参考訳(メタデータ) (2024-11-17T03:34:27Z) - DehazeDCT: Towards Effective Non-Homogeneous Dehazing via Deformable Convolutional Transformer [43.807338032286346]
DehazeDCT(Deformable Convolutional Transformer-like Architecture)による非均一なデハージング手法を提案する。
まず,変形可能な畳み込みv4に基づく変圧器型ネットワークを設計し,長距離依存性と適応型空間アグリゲーション機能を実現する。
さらに,ライトウェイトなRetinexインスパイアされた変圧器を活用し,色補正と構造改善を実現する。
論文 参考訳(メタデータ) (2024-05-24T10:59:18Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - Dual-former: Hybrid Self-attention Transformer for Efficient Image
Restoration [6.611849560359801]
本稿では,自己アテンションモジュールの強力なグローバルモデリング能力と,全体のアーキテクチャにおける畳み込みの局所モデリング能力を組み合わせたDual-formerを提案する。
実験により、Dual-formerはIndoorデータセットの最先端MAXIM法よりも1.91dBのゲインを達成していることが示された。
単一画像のデライニングでは、わずか21.5%のGFLOPを持つ5つのデータセットの平均結果に対して、SOTA法を0.1dB PSNRで上回っている。
論文 参考訳(メタデータ) (2022-10-03T16:39:21Z) - Towards Fast and Light-Weight Restoration of Dark Images [26.779714419544085]
我々は,CPU上でも3秒の球場で,2848 x 4256,極暗の単一イメージをフル解像度で拡張できることを実証した。
2~7倍のモデルパラメータ,2~3倍のメモリ使用率,5~20倍のスピードアップで実現しています。
論文 参考訳(メタデータ) (2020-11-28T13:53:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。