論文の概要: Capsule Enhanced Variational AutoEncoder for Underwater Image Reconstruction
- arxiv url: http://arxiv.org/abs/2406.01294v1
- Date: Mon, 3 Jun 2024 13:04:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 23:09:15.623127
- Title: Capsule Enhanced Variational AutoEncoder for Underwater Image Reconstruction
- Title(参考訳): 水中画像再構成のためのカプセル型変分オートエンコーダ
- Authors: Rita Pucci, Niki Martinel,
- Abstract要約: 我々は、ベクトル量子化変分オートエンコーダ(myVQVAE)の離散的特徴量化アプローチからインスピレーションを得て、両問題に共同で取り組む新しいアーキテクチャを導入する。
我々のモデルは、入力を潜在表現に圧縮する符号化ネットワークと、2つの独立デコードネットワークを組み合わせることで、潜在表現のみを使用して画像の強調と再構成を行う。
カプセル層の利用により、myVQVAEの差別化の問題を克服し、特定の最適化トリックを必要とせずに、エンドツーエンドでソリューションをトレーニングできるようにします。
- 参考スコア(独自算出の注目度): 8.16306466526838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Underwater image analysis is crucial for marine monitoring. However, it presents two major challenges (i) the visual quality of the images is often degraded due to wavelength-dependent light attenuation, scattering, and water types; (ii) capturing and storing high-resolution images is limited by hardware, which hinders long-term environmental analyses. Recently, deep neural networks have been introduced for underwater enhancement yet neglecting the challenge posed by the limitations of autonomous underwater image acquisition systems. We introduce a novel architecture that jointly tackles both issues by drawing inspiration from the discrete features quantization approach of Vector Quantized Variational Autoencoder (\myVQVAE). Our model combines an encoding network, that compresses the input into a latent representation, with two independent decoding networks, that enhance/reconstruct images using only the latent representation. One decoder focuses on the spatial information while the other captures information about the entities in the image by leveraging the concept of capsules. With the usage of capsule layers, we also overcome the differentiabilty issues of \myVQVAE making our solution trainable in an end-to-end fashion without the need for particular optimization tricks. Capsules perform feature quantization in a fully differentiable manner. We conducted thorough quantitative and qualitative evaluations on 6 benchmark datasets to assess the effectiveness of our contributions. Results demonstrate that we perform better than existing methods (eg, about $+1.4dB$ gain on the challenging LSUI Test-L400 dataset), while significantly reducing the amount of space needed for data storage (ie, $3\times$ more efficient).
- Abstract(参考訳): 水中画像解析は海洋モニタリングに不可欠である。
しかし、それは2つの大きな課題を提示します。
一 波長依存性の光減衰、散乱、水の種類により、画像の視覚的品質が劣化することがしばしばある。
(II)高解像度画像のキャプチャと保存はハードウェアによって制限されており、長期の環境分析を妨げている。
近年,自律型水中画像取得システムの限界によって生じる課題を無視しながら,水中強調のためにディープニューラルネットワークが導入されている。
本稿では,ベクトル量子化変分オートエンコーダ(\myVQVAE)の離散的特徴量化アプローチから着想を得て,両問題に共同で取り組む新しいアーキテクチャを提案する。
我々のモデルは、入力を潜在表現に圧縮する符号化ネットワークと、2つの独立デコードネットワークを組み合わせることで、潜在表現のみを使用して画像の強調と再構成を行う。
1つのデコーダは空間情報に焦点を当て、もう1つのデコーダはカプセルの概念を利用して画像内のエンティティに関する情報をキャプチャする。
カプセル層の使用により、特定の最適化トリックを必要とせずに、ソリューションをエンドツーエンドでトレーニング可能にするために、‘myVQVAE’という差別化の問題を克服する。
カプセルは、完全に微分可能な方法で特徴量化を行う。
コントリビューションの有効性を評価するため、6つのベンチマークデータセットに対して、徹底的な定量的および定性的な評価を行った。
その結果、既存のメソッド(例えば、LSUI Test-L400データセットで約1.4dB$のゲイン)よりもパフォーマンスが優れており、データストレージに必要なスペース(つまり、$3\times$より効率的に)を大幅に削減しています。
関連論文リスト
- HybridFlow: Infusing Continuity into Masked Codebook for Extreme Low-Bitrate Image Compression [51.04820313355164]
HyrbidFlowは、連続的な機能ベースのストリームとコードブックベースのストリームを組み合わせることで、極めて低い条件下で高い知覚品質と高い忠実性を実現する。
実験の結果、超低速で複数のデータセットにまたがる優れた性能が示された。
論文 参考訳(メタデータ) (2024-04-20T13:19:08Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z) - Divided Attention: Unsupervised Multi-Object Discovery with Contextually
Separated Slots [78.23772771485635]
本研究では,視覚領域を独立した移動領域に分割し,基礎的な真実や監督を伴わずに訓練する手法を提案する。
Slot Attentionに基づく逆条件エンコーダ・デコーダアーキテクチャで構成されている。
論文 参考訳(メタデータ) (2023-04-04T00:26:13Z) - High Fidelity Image Synthesis With Deep VAEs In Latent Space [0.0]
階層的変動オートエンコーダ(VAE)を用いた高解像度マルチモーダルデータセットに高速でリアルな画像生成を提案する。
この2段階のセットアップでは、オートエンコーダがイメージをセマンティックな特徴に圧縮し、深いVAEでモデル化する。
我々は、BigGANに匹敵するImageNet-256データセット上で、FID9.34を達成する2段階アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-23T23:45:19Z) - UW-CVGAN: UnderWater Image Enhancement with Capsules Vectors
Quantization [25.23797117677732]
本稿では,VQGANの離散的特徴量化パラダイムに基づく水中カプセルベクトルGAN UWCVGANを提案する。
提案したUWCVGANは、画像を潜在表現に圧縮する符号化ネットワークとデコードネットワークを結合し、唯一の潜在表現から画像の拡張を再構築する。
論文 参考訳(メタデータ) (2023-02-02T15:00:03Z) - Device Interoperability for Learned Image Compression with Weights and
Activations Quantization [1.373801677008598]
本稿では,最先端の画像圧縮ネットワークのデバイス相互運用性問題を解決する手法を提案する。
本稿では,クロスプラットフォームの符号化と復号化を保証し,高速に実装できる簡易な手法を提案する。
論文 参考訳(メタデータ) (2022-12-02T17:45:29Z) - Pixel Distillation: A New Knowledge Distillation Scheme for Low-Resolution Image Recognition [124.80263629921498]
アーキテクチャ制約を同時に破りながら知識蒸留を入力レベルまで拡張するPixel Distillationを提案する。
このようなスキームは、ネットワークアーキテクチャと画像品質の両方をリソースの全体的な要求に応じて調整できるため、展開のための柔軟なコスト制御を実現することができる。
論文 参考訳(メタデータ) (2021-12-17T14:31:40Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z) - A Unified End-to-End Framework for Efficient Deep Image Compression [35.156677716140635]
本稿では,3つの新しい技術に基づくEDIC(Efficient Deep Image Compression)という統合フレームワークを提案する。
具体的には、学習に基づく画像圧縮のためのオートエンコーダスタイルのネットワークを設計する。
EDIC法は,映像圧縮性能を向上させるために,Deep Video Compression (DVC) フレームワークに容易に組み込むことができる。
論文 参考訳(メタデータ) (2020-02-09T14:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。