論文の概要: CE-VAE: Capsule Enhanced Variational AutoEncoder for Underwater Image Enhancement
- arxiv url: http://arxiv.org/abs/2406.01294v2
- Date: Fri, 22 Nov 2024 10:25:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 18:36:12.426672
- Title: CE-VAE: Capsule Enhanced Variational AutoEncoder for Underwater Image Enhancement
- Title(参考訳): CE-VAE:水中画像強調のための可変オートエンコーダのカプセル化
- Authors: Rita Pucci, Niki Martinel,
- Abstract要約: 海面監視のための無人水中画像解析は、画質低下とハードウェアストレージ制約という2つの大きな課題に直面している。
本稿では,劣化した水中画像の効率よく圧縮・拡張する新しいアーキテクチャであるCapsule Enhanced Variational AutoEncoder (CE-VAE)を紹介する。
CE-VAEは6つのベンチマークデータセットの水中画像強化において最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 8.16306466526838
- License:
- Abstract: Unmanned underwater image analysis for marine monitoring faces two key challenges: (i) degraded image quality due to light attenuation and (ii) hardware storage constraints limiting high-resolution image collection. Existing methods primarily address image enhancement with approaches that hinge on storing the full-size input. In contrast, we introduce the Capsule Enhanced Variational AutoEncoder (CE-VAE), a novel architecture designed to efficiently compress and enhance degraded underwater images. Our attention-aware image encoder can project the input image onto a latent space representation while being able to run online on a remote device. The only information that needs to be stored on the device or sent to a beacon is a compressed representation. There is a dual-decoder module that performs offline, full-size enhanced image generation. One branch reconstructs spatial details from the compressed latent space, while the second branch utilizes a capsule-clustering layer to capture entity-level structures and complex spatial relationships. This parallel decoding strategy enables the model to balance fine-detail preservation with context-aware enhancements. CE-VAE achieves state-of-the-art performance in underwater image enhancement on six benchmark datasets, providing up to 3x higher compression efficiency than existing approaches. Code available at \url{https://github.com/iN1k1/ce-vae-underwater-image-enhancement}.
- Abstract(参考訳): 海洋モニタリングのための無人水中画像解析は2つの課題に直面している。
一 光の減衰による画質の劣化
(II)高解像度画像の収集を制限するハードウェアストレージの制約。
既存の方法は、フルサイズの入力を格納するためのヒンジによる画像強調に主に対処する。
これとは対照的に、劣化した水中画像の効率よく圧縮・拡張する新しいアーキテクチャであるCapsule Enhanced Variational AutoEncoder (CE-VAE)を導入する。
我々の注意を意識した画像エンコーダは、リモートデバイス上でオンラインで実行しながら、入力画像を潜在空間表現に投影することができる。
デバイスに格納するか、ビーコンに送信する必要がある唯一の情報は、圧縮された表現である。
オフラインでフルサイズの画像生成を行うデュアルデコーダモジュールがある。
1つの枝は圧縮された潜伏空間から空間的詳細を再構成し、もう1つの枝はカプセルクラスタリング層を利用して実体レベルの構造と複雑な空間的関係を捉えている。
この並列デコーディング戦略により、細部保存とコンテキスト認識の強化のバランスをとることができる。
CE-VAEは6つのベンチマークデータセット上での水中画像強調における最先端のパフォーマンスを実現し、既存のアプローチよりも最大3倍の圧縮効率を実現している。
コードは \url{https://github.com/iN1k1/ce-vae-underwater-image-enhancement} で公開されている。
関連論文リスト
- HybridFlow: Infusing Continuity into Masked Codebook for Extreme Low-Bitrate Image Compression [51.04820313355164]
HyrbidFlowは、連続的な機能ベースのストリームとコードブックベースのストリームを組み合わせることで、極めて低い条件下で高い知覚品質と高い忠実性を実現する。
実験の結果、超低速で複数のデータセットにまたがる優れた性能が示された。
論文 参考訳(メタデータ) (2024-04-20T13:19:08Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z) - Divided Attention: Unsupervised Multi-Object Discovery with Contextually
Separated Slots [78.23772771485635]
本研究では,視覚領域を独立した移動領域に分割し,基礎的な真実や監督を伴わずに訓練する手法を提案する。
Slot Attentionに基づく逆条件エンコーダ・デコーダアーキテクチャで構成されている。
論文 参考訳(メタデータ) (2023-04-04T00:26:13Z) - High Fidelity Image Synthesis With Deep VAEs In Latent Space [0.0]
階層的変動オートエンコーダ(VAE)を用いた高解像度マルチモーダルデータセットに高速でリアルな画像生成を提案する。
この2段階のセットアップでは、オートエンコーダがイメージをセマンティックな特徴に圧縮し、深いVAEでモデル化する。
我々は、BigGANに匹敵するImageNet-256データセット上で、FID9.34を達成する2段階アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-23T23:45:19Z) - UW-CVGAN: UnderWater Image Enhancement with Capsules Vectors
Quantization [25.23797117677732]
本稿では,VQGANの離散的特徴量化パラダイムに基づく水中カプセルベクトルGAN UWCVGANを提案する。
提案したUWCVGANは、画像を潜在表現に圧縮する符号化ネットワークとデコードネットワークを結合し、唯一の潜在表現から画像の拡張を再構築する。
論文 参考訳(メタデータ) (2023-02-02T15:00:03Z) - Device Interoperability for Learned Image Compression with Weights and
Activations Quantization [1.373801677008598]
本稿では,最先端の画像圧縮ネットワークのデバイス相互運用性問題を解決する手法を提案する。
本稿では,クロスプラットフォームの符号化と復号化を保証し,高速に実装できる簡易な手法を提案する。
論文 参考訳(メタデータ) (2022-12-02T17:45:29Z) - Pixel Distillation: A New Knowledge Distillation Scheme for Low-Resolution Image Recognition [124.80263629921498]
アーキテクチャ制約を同時に破りながら知識蒸留を入力レベルまで拡張するPixel Distillationを提案する。
このようなスキームは、ネットワークアーキテクチャと画像品質の両方をリソースの全体的な要求に応じて調整できるため、展開のための柔軟なコスト制御を実現することができる。
論文 参考訳(メタデータ) (2021-12-17T14:31:40Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z) - A Unified End-to-End Framework for Efficient Deep Image Compression [35.156677716140635]
本稿では,3つの新しい技術に基づくEDIC(Efficient Deep Image Compression)という統合フレームワークを提案する。
具体的には、学習に基づく画像圧縮のためのオートエンコーダスタイルのネットワークを設計する。
EDIC法は,映像圧縮性能を向上させるために,Deep Video Compression (DVC) フレームワークに容易に組み込むことができる。
論文 参考訳(メタデータ) (2020-02-09T14:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。