論文の概要: Learned Focused Plenoptic Image Compression with Microimage
Preprocessing and Global Attention
- arxiv url: http://arxiv.org/abs/2305.00489v1
- Date: Sun, 30 Apr 2023 14:24:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 14:56:49.954357
- Title: Learned Focused Plenoptic Image Compression with Microimage
Preprocessing and Global Attention
- Title(参考訳): マイクロイメージ前処理とグローバルアテンションを用いた焦点強調画像圧縮
- Authors: Kedeng Tong, Xin Jin, Yuqing Yang, Chen Wang, Jinshi Kang, Fan Jiang
- Abstract要約: 集光レンズカメラは、光フィールド(LF)の空間情報と角情報を同時に記録することができる。
既存のレンズ画像圧縮法は、マイクロレンズリレー画像によって生じる複雑なマイクロテクスチャと、マイクロイメージ間の長距離相関により、キャプチャ画像に非効率であることを示す。
焦点を絞ったレンズ画像の圧縮を効率よく行うために, エンド・ツー・エンドの学習アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 17.05466366805901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Focused plenoptic cameras can record spatial and angular information of the
light field (LF) simultaneously with higher spatial resolution relative to
traditional plenoptic cameras, which facilitate various applications in
computer vision. However, the existing plenoptic image compression methods
present ineffectiveness to the captured images due to the complex
micro-textures generated by the microlens relay imaging and long-distance
correlations among the microimages. In this paper, a lossy end-to-end learning
architecture is proposed to compress the focused plenoptic images efficiently.
First, a data preprocessing scheme is designed according to the imaging
principle to remove the sub-aperture image ineffective pixels in the recorded
light field and align the microimages to the rectangular grid. Then, the global
attention module with large receptive field is proposed to capture the global
correlation among the feature maps using pixel-wise vector attention computed
in the resampling process. Also, a new image dataset consisting of 1910 focused
plenoptic images with content and depth diversity is built to benefit training
and testing. Extensive experimental evaluations demonstrate the effectiveness
of the proposed approach. It outperforms intra coding of HEVC and VVC by an
average of 62.57% and 51.67% bitrate reduction on the 20 preprocessed focused
plenoptic images, respectively. Also, it achieves 18.73% bitrate saving and
generates perceptually pleasant reconstructions compared to the
state-of-the-art end-to-end image compression methods, which benefits the
applications of focused plenoptic cameras greatly. The dataset and code are
publicly available at https://github.com/VincentChandelier/GACN.
- Abstract(参考訳): フォーカスドプレンオプティクカメラは、従来のプレンオプティクカメラよりも高い空間分解能で光野(lf)の空間的および角的情報を記録できるため、コンピュータビジョンにおける様々な応用が容易である。
しかし,既存のレンズ画像圧縮法は,マイクロレンズリレー画像から発生する複雑なマイクロテクスチャや,マイクロイメージ間の長距離相関により,撮像画像に効果がない。
本稿では,焦点を絞った画像の圧縮を効率的に行うために,エンド・ツー・エンドの学習アーキテクチャを提案する。
まず、記録された光野におけるサブアパーチャ画像非有効画素を除去し、マイクロ画像を矩形格子に整列するように、撮像原理に従ってデータ前処理スキームを設計する。
次に、再サンプリング過程で計算された画素毎のベクトル注意を用いて特徴地図間の大域的相関を捉えるために、大きな受容場を有する大域的注意モジュールを提案する。
また、トレーニングとテストに役立つコンテンツと深さの多様性を備えた1910年に焦点を絞ったplenopticイメージからなる新しい画像データセットが構築されている。
広範な実験評価により,提案手法の有効性が示された。
hevcとvvcのイントラコーディングを平均62.57%、plenopticの20枚の画像で51.67%のビットレート削減で上回っている。
また、18.73%のビットレート保存を実現し、最先端のエンドツーエンド画像圧縮法と比較して知覚的に快適な再構成を生成する。
データセットとコードはhttps://github.com/VincentChandelier/GACNで公開されている。
関連論文リスト
- Multi-scale Frequency Enhancement Network for Blind Image Deblurring [7.198959621445282]
視覚障害者のためのマルチスケール周波数拡張ネットワーク(MFENet)を提案する。
ぼやけた画像のマルチスケール空間およびチャネル情報をキャプチャするために,深度的に分離可能な畳み込みに基づくマルチスケール特徴抽出モジュール(MS-FE)を導入する。
提案手法は,視覚的品質と客観的評価の両指標において,優れた劣化性能を達成できることを実証する。
論文 参考訳(メタデータ) (2024-11-11T11:49:18Z) - Latent Space Imaging [15.435034286180295]
我々は,人工視覚システムの開発において,同様のアプローチを採用することを提案する。
遅延空間イメージング(Latent Space Imaging)は、光学とソフトウェアの組み合わせによって、画像情報を生成モデルの意味的にリッチな潜在空間に直接エンコードする新しいパラダイムである。
我々は,この新原理を,1画素カメラをベースとした初期ハードウェアプロトタイプを通じて実証する。
論文 参考訳(メタデータ) (2024-07-09T17:17:03Z) - Towards Real-World Focus Stacking with Deep Learning [97.34754533628322]
焦点ブラケットを用いた94個の高解像度原画像のバーストからなる新しいデータセットを提案する。
このデータセットは、現実世界のアプリケーションに十分な長さのバーストを処理できるフォーカススタックのための最初のディープラーニングアルゴリズムをトレーニングするために使用される。
論文 参考訳(メタデータ) (2023-11-29T17:49:33Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - Rank-Enhanced Low-Dimensional Convolution Set for Hyperspectral Image
Denoising [50.039949798156826]
本稿では,ハイパースペクトル(HS)画像の難解化問題に対処する。
ランク付き低次元畳み込み集合(Re-ConvSet)を提案する。
次に、Re-ConvSetを広く使われているU-Netアーキテクチャに組み込んで、HS画像復号法を構築する。
論文 参考訳(メタデータ) (2022-07-09T13:35:12Z) - Pixel Distillation: A New Knowledge Distillation Scheme for Low-Resolution Image Recognition [124.80263629921498]
アーキテクチャ制約を同時に破りながら知識蒸留を入力レベルまで拡張するPixel Distillationを提案する。
このようなスキームは、ネットワークアーキテクチャと画像品質の両方をリソースの全体的な要求に応じて調整できるため、展開のための柔軟なコスト制御を実現することができる。
論文 参考訳(メタデータ) (2021-12-17T14:31:40Z) - MC-Blur: A Comprehensive Benchmark for Image Deblurring [127.6301230023318]
ほとんどの実世界の画像では、ブラーは動きやデフォーカスなど様々な要因によって引き起こされる。
我々は,MC-Blurと呼ばれる大規模マルチライク画像デブロアリングデータセットを新たに構築する。
MC-Blurデータセットに基づいて,異なるシナリオにおけるSOTA法の比較を行う。
論文 参考訳(メタデータ) (2021-12-01T02:10:42Z) - Beyond Joint Demosaicking and Denoising: An Image Processing Pipeline
for a Pixel-bin Image Sensor [0.883717274344425]
Pixel binningは、スマートフォンカメラのハードウェア制限に対処する最も顕著なソリューションの1つだと考えられている。
本稿では,新しい学習手法を導入することで,このような画像センサ上でのJDD(Joint Desaicing and Denoising)の課題に対処する。
提案手法は,視覚可能な画像を生成するための2つの新しい知覚損失を含む多項目的関数によって導かれる。
論文 参考訳(メタデータ) (2021-04-19T15:41:28Z) - A Novel Upsampling and Context Convolution for Image Semantic
Segmentation [0.966840768820136]
最近のセマンティックセグメンテーションの方法は、しばしば深い畳み込みニューラルネットワークを用いたエンコーダデコーダ構造を採用している。
ネットワーク内の画像の空間情報を効率的に保存するために,ガイドフィルタに基づく高密度アップサンプリング畳み込み法を提案する。
ADE20KとPascal-Contextのベンチマークデータセットでは,それぞれ82.86%,81.62%の画素精度を記録した。
論文 参考訳(メタデータ) (2021-03-20T06:16:42Z) - Deep Burst Super-Resolution [165.90445859851448]
バースト超解像タスクのための新しいアーキテクチャを提案する。
我々のネットワークは複数のノイズRAW画像を入力として取り出し、出力として分解された超解像RGB画像を生成する。
実世界のデータのトレーニングと評価を可能にするため,BurstSRデータセットも導入する。
論文 参考訳(メタデータ) (2021-01-26T18:57:21Z) - PlenoptiCam v1.0: A light-field imaging framework [8.467466998915018]
光界カメラは狭帯域深度センシングアプリケーションにおいてリッチな3次元情報検索において重要な役割を担っている。
レンズカメラによる露光から光フィールドを構成する際の重要な障害は、4次元画像データを計算的に調整し、調整し、再配置することである。
特定の望遠カメラ専用のパイプラインを調整することで、全体的な画質を向上させるためのいくつかの試みが提案されている。
論文 参考訳(メタデータ) (2020-10-14T09:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。