Fugu-MT 論文翻訳(概要): ExpoMamba: Exploiting Frequency SSM Blocks for Efficient and Effective Image Enhancement

論文の概要: ExpoMamba: Exploiting Frequency SSM Blocks for Efficient and Effective Image Enhancement

arxiv url: http://arxiv.org/abs/2408.09650v1
Date: Mon, 19 Aug 2024 02:16:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-20 17:53:49.655707
Title: ExpoMamba: Exploiting Frequency SSM Blocks for Efficient and Effective Image Enhancement
Title（参考訳）: ExpoMamba: 効率よく効果的な画像強調のための周波数SSMブロックの爆発
Authors: Eashan Adhikarla, Kai Zhang, John Nicholson, Brian D. Davison,
Abstract要約: ExpoMambaは、修正されたU-Net内に周波数状態空間のコンポーネントを統合する新しいアーキテクチャである。実験の結果,ExpoMambaは従来のモデルよりも2～3倍高速に低照度画像を撮影できることがわかった。
参考スコア（独自算出の注目度）: 7.091012207482573
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Low-light image enhancement remains a challenging task in computer vision, with existing state-of-the-art models often limited by hardware constraints and computational inefficiencies, particularly in handling high-resolution images. Recent foundation models, such as transformers and diffusion models, despite their efficacy in various domains, are limited in use on edge devices due to their computational complexity and slow inference times. We introduce ExpoMamba, a novel architecture that integrates components of the frequency state space within a modified U-Net, offering a blend of efficiency and effectiveness. This model is specifically optimized to address mixed exposure challenges, a common issue in low-light image enhancement, while ensuring computational efficiency. Our experiments demonstrate that ExpoMamba enhances low-light images up to 2-3x faster than traditional models with an inference time of 36.6 ms and achieves a PSNR improvement of approximately 15-20% over competing models, making it highly suitable for real-time image processing applications.
Abstract（参考訳）: 低照度画像の強調はコンピュータビジョンでは依然として困難な課題であり、既存の最先端モデルはハードウェアの制約や計算の非効率、特に高解像度画像の処理によって制限されることが多い。変圧器や拡散モデルのような最近の基礎モデルは、様々な領域で有効であるにもかかわらず、計算複雑性と速度の遅い推論時間のためにエッジデバイスでの使用に制限されている。改良されたU-Net内に周波数状態空間のコンポーネントを統合する新しいアーキテクチャであるExpoMambaを導入し、効率と有効性をブレンドする。このモデルは、低照度画像強調における一般的な問題である混合露光問題に対処し、計算効率を確保するために特別に最適化されている。実験の結果,ExpoMambaは36.6msの従来のモデルよりも2～3倍高速で低照度画像を向上し,PSNRを約15～20%向上し,リアルタイム画像処理に非常に適していることがわかった。

関連論文リスト

MambaStyle: Efficient StyleGAN Inversion for Real Image Editing with State-Space Models [60.110274007388135]
MambaStyleは、GANインバージョンと編集のための効率的なシングルステージエンコーダベースのアプローチである。 MambaStyleは、逆精度、編集品質、計算効率のバランスが優れていることを示す。
論文参考訳（メタデータ） (2025-05-06T20:03:47Z)
ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration [75.0053551643052]
本稿では、高解像度画像復元のための効率性、スケーラビリティ、長距離モデリングを向上する新しいフレームワークZipIRを紹介する。 ZipIRは画像32xを圧縮する高度に圧縮された潜在表現を使用し、空間トークンの数を効果的に削減する。 ZipIRは既存の拡散ベースの手法を超越し、高度に劣化した入力からの高解像度画像の復元において、未整合の速度と品質を提供する。
論文参考訳（メタデータ） (2025-04-11T14:49:52Z)
MambaIC: State Space Models for High-Performance Learned Image Compression [53.991726013454695]
多数のフィールドをまたいだリアルタイム情報伝送には,高性能な画像圧縮アルゴリズムが不可欠である。状態空間モデル(SSM)の長距離依存性の捕捉効果に着想を得て,SSMを利用して既存手法の計算不効率に対処する。そこで本稿では,MambaICと呼ばれる洗練されたコンテキストモデリングによる画像圧縮手法を提案する。
論文参考訳（メタデータ） (2025-03-16T11:32:34Z)
Directing Mamba to Complex Textures: An Efficient Texture-Aware State Space Model for Image Restoration [75.51789992466183]
TAMAMbaIRは画像テクスチャの達成と性能と効率のトレードオフを同時に知覚する。画像超解像, デラリニング, 低照度画像強調のためのベンチマーク実験により, TAMAMbaIRは高い効率で最先端の性能を達成できることを示した。
論文参考訳（メタデータ） (2025-01-27T23:53:49Z)
Numerical Pruning for Efficient Autoregressive Models [87.56342118369123]
本稿では,デコーダのみを用いた変圧器を用いた自己回帰モデルの圧縮に着目する。具体的には,ニュートン法とモジュールの数値スコアをそれぞれ計算する学習自由プルーニング法を提案する。提案手法の有効性を検証するため,理論的支援と広範囲な実験を行った。
論文参考訳（メタデータ） (2024-12-17T01:09:23Z)
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文参考訳（メタデータ） (2024-10-10T17:59:17Z)
Expansive Supervision for Neural Radiance Field [12.510474224361504]
我々は,ニューラルネットワーク分野のトレーニングにおいて,計算負荷,レンダリング品質,柔軟性を効率的にバランスさせる,拡張的な監視機構を導入する。従来の監視手法と比較して冗長なレンダリング処理を効果的に回避し,時間とメモリ消費の双方で顕著な削減を実現している。
論文参考訳（メタデータ） (2024-09-12T14:05:13Z)
Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文参考訳（メタデータ） (2024-08-01T15:14:10Z)
Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文参考訳（メタデータ） (2024-06-13T17:59:58Z)
Scaling Diffusion Mamba with Bidirectional SSMs for Efficient Image and Video Generation [41.54814517077309]
本稿では,拡張性のある代替案として,従来の注意機構を先導する新しい拡散アーキテクチャDiffusion Mamba(DiM)を提案する。 DiMは、高速な推論時間と計算負荷の低減を実現し、シーケンス長に対する線形複雑性を維持する。その結果、DIMのスケーラビリティと効率性を確認し、画像およびビデオ生成技術のための新しいベンチマークを確立した。
論文参考訳（メタデータ） (2024-05-24T18:50:27Z)
Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文参考訳（メタデータ） (2024-05-23T09:13:36Z)
DiM: Diffusion Mamba for Efficient High-Resolution Image Synthesis [56.849285913695184]
Diffusion Mamba (DiM) は高分解能画像合成のためのシーケンスモデルである。 DiMアーキテクチャは高解像度画像の推論時間効率を実現する。実験は、我々のDiMの有効性と効率を実証する。
論文参考訳（メタデータ） (2024-05-23T06:53:18Z)
DARK: Denoising, Amplification, Restoration Kit [0.7670170505111058]
本稿では,低照度条件下での画像強調のための軽量な計算フレームワークを提案する。我々のモデルは軽量に設計されており、標準のコンシューマハードウェア上でのリアルタイムアプリケーションに対する低計算需要と適合性を保証する。
論文参考訳（メタデータ） (2024-05-21T16:01:13Z)
SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions [5.100085108873068]
SDXS-512 と SDXS-1024 の2つのモデルを示し,1つのGPU上で約100 FPS (SD v1.5 より30倍速い) と30 FPS (SDXLより60倍速い) の推論速度を実現する。我々のトレーニングアプローチは、画像条件付き制御に有望な応用を提供し、画像間の効率的な翻訳を容易にする。
論文参考訳（メタデータ） (2024-03-25T11:16:23Z)
E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation [69.72194342962615]
拡散モデルからGANを蒸留するプロセスは、より効率的にできるのか? まず、一般化された特徴を持つベースGANモデルを構築し、微調整により異なる概念に適応し、スクラッチからトレーニングの必要性を排除した。第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。第3に、微調整に必要な最小限のデータ量を調査し、トレーニング時間を短縮する。
論文参考訳（メタデータ） (2024-01-11T18:59:14Z)
Efficient-3DiM: Learning a Generalizable Single-image Novel-view Synthesizer in One Day [63.96075838322437]
シングルイメージのノベルビューシンセサイザーを学習するためのフレームワークを提案する。当社のフレームワークは,トレーニング時間を10日以内から1日未満に短縮することが可能です。
論文参考訳（メタデータ） (2023-10-04T17:57:07Z)
Universal and Flexible Optical Aberration Correction Using Deep-Prior Based Deconvolution [51.274657266928315]
そこで本研究では,収差画像とpsfマップを入力とし,レンズ固有深層プリエントを組み込んだ潜在高品質版を生成する,psf対応プラグイン・アンド・プレイ深層ネットワークを提案する。具体的には、多彩なレンズの集合からベースモデルを事前訓練し、パラメータを迅速に精製して特定のレンズに適応させる。
論文参考訳（メタデータ） (2021-04-07T12:00:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。