論文の概要: ExpoMamba: Exploiting Frequency SSM Blocks for Efficient and Effective Image Enhancement
- arxiv url: http://arxiv.org/abs/2408.09650v1
- Date: Mon, 19 Aug 2024 02:16:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 17:53:49.655707
- Title: ExpoMamba: Exploiting Frequency SSM Blocks for Efficient and Effective Image Enhancement
- Title(参考訳): ExpoMamba: 効率よく効果的な画像強調のための周波数SSMブロックの爆発
- Authors: Eashan Adhikarla, Kai Zhang, John Nicholson, Brian D. Davison,
- Abstract要約: ExpoMambaは、修正されたU-Net内に周波数状態空間のコンポーネントを統合する新しいアーキテクチャである。
実験の結果,ExpoMambaは従来のモデルよりも2~3倍高速に低照度画像を撮影できることがわかった。
- 参考スコア(独自算出の注目度): 7.091012207482573
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Low-light image enhancement remains a challenging task in computer vision, with existing state-of-the-art models often limited by hardware constraints and computational inefficiencies, particularly in handling high-resolution images. Recent foundation models, such as transformers and diffusion models, despite their efficacy in various domains, are limited in use on edge devices due to their computational complexity and slow inference times. We introduce ExpoMamba, a novel architecture that integrates components of the frequency state space within a modified U-Net, offering a blend of efficiency and effectiveness. This model is specifically optimized to address mixed exposure challenges, a common issue in low-light image enhancement, while ensuring computational efficiency. Our experiments demonstrate that ExpoMamba enhances low-light images up to 2-3x faster than traditional models with an inference time of 36.6 ms and achieves a PSNR improvement of approximately 15-20% over competing models, making it highly suitable for real-time image processing applications.
- Abstract(参考訳): 低照度画像の強調はコンピュータビジョンでは依然として困難な課題であり、既存の最先端モデルはハードウェアの制約や計算の非効率、特に高解像度画像の処理によって制限されることが多い。
変圧器や拡散モデルのような最近の基礎モデルは、様々な領域で有効であるにもかかわらず、計算複雑性と速度の遅い推論時間のためにエッジデバイスでの使用に制限されている。
改良されたU-Net内に周波数状態空間のコンポーネントを統合する新しいアーキテクチャであるExpoMambaを導入し、効率と有効性をブレンドする。
このモデルは、低照度画像強調における一般的な問題である混合露光問題に対処し、計算効率を確保するために特別に最適化されている。
実験の結果,ExpoMambaは36.6msの従来のモデルよりも2~3倍高速で低照度画像を向上し,PSNRを約15~20%向上し,リアルタイム画像処理に非常に適していることがわかった。
関連論文リスト
- Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - Expansive Supervision for Neural Radiance Field [12.510474224361504]
我々は,ニューラルネットワーク分野のトレーニングにおいて,計算負荷,レンダリング品質,柔軟性を効率的にバランスさせる,拡張的な監視機構を導入する。
従来の監視手法と比較して冗長なレンダリング処理を効果的に回避し,時間とメモリ消費の双方で顕著な削減を実現している。
論文 参考訳(メタデータ) (2024-09-12T14:05:13Z) - Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。
提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - Scaling Diffusion Mamba with Bidirectional SSMs for Efficient Image and Video Generation [41.54814517077309]
本稿では,拡張性のある代替案として,従来の注意機構を先導する新しい拡散アーキテクチャDiffusion Mamba(DiM)を提案する。
DiMは、高速な推論時間と計算負荷の低減を実現し、シーケンス長に対する線形複雑性を維持する。
その結果、DIMのスケーラビリティと効率性を確認し、画像およびビデオ生成技術のための新しいベンチマークを確立した。
論文 参考訳(メタデータ) (2024-05-24T18:50:27Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - DiM: Diffusion Mamba for Efficient High-Resolution Image Synthesis [56.849285913695184]
Diffusion Mamba (DiM) は高分解能画像合成のためのシーケンスモデルである。
DiMアーキテクチャは高解像度画像の推論時間効率を実現する。
実験は、我々のDiMの有効性と効率を実証する。
論文 参考訳(メタデータ) (2024-05-23T06:53:18Z) - DARK: Denoising, Amplification, Restoration Kit [0.7670170505111058]
本稿では,低照度条件下での画像強調のための軽量な計算フレームワークを提案する。
我々のモデルは軽量に設計されており、標準のコンシューマハードウェア上でのリアルタイムアプリケーションに対する低計算需要と適合性を保証する。
論文 参考訳(メタデータ) (2024-05-21T16:01:13Z) - SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions [5.100085108873068]
SDXS-512 と SDXS-1024 の2つのモデルを示し,1つのGPU上で約100 FPS (SD v1.5 より30倍速い) と30 FPS (SDXLより60倍速い) の推論速度を実現する。
我々のトレーニングアプローチは、画像条件付き制御に有望な応用を提供し、画像間の効率的な翻訳を容易にする。
論文 参考訳(メタデータ) (2024-03-25T11:16:23Z) - E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation [69.72194342962615]
拡散モデルからGANを蒸留するプロセスは、より効率的にできるのか?
まず、一般化された特徴を持つベースGANモデルを構築し、微調整により異なる概念に適応し、スクラッチからトレーニングの必要性を排除した。
第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。
第3に、微調整に必要な最小限のデータ量を調査し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2024-01-11T18:59:14Z) - Efficient-3DiM: Learning a Generalizable Single-image Novel-view
Synthesizer in One Day [63.96075838322437]
シングルイメージのノベルビューシンセサイザーを学習するためのフレームワークを提案する。
当社のフレームワークは,トレーニング時間を10日以内から1日未満に短縮することが可能です。
論文 参考訳(メタデータ) (2023-10-04T17:57:07Z) - Universal and Flexible Optical Aberration Correction Using Deep-Prior
Based Deconvolution [51.274657266928315]
そこで本研究では,収差画像とpsfマップを入力とし,レンズ固有深層プリエントを組み込んだ潜在高品質版を生成する,psf対応プラグイン・アンド・プレイ深層ネットワークを提案する。
具体的には、多彩なレンズの集合からベースモデルを事前訓練し、パラメータを迅速に精製して特定のレンズに適応させる。
論文 参考訳(メタデータ) (2021-04-07T12:00:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。