論文の概要: On the Impact of Lossy Image and Video Compression on the Performance of
Deep Convolutional Neural Network Architectures
- arxiv url: http://arxiv.org/abs/2007.14314v1
- Date: Tue, 28 Jul 2020 15:37:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 02:28:17.878267
- Title: On the Impact of Lossy Image and Video Compression on the Performance of
Deep Convolutional Neural Network Architectures
- Title(参考訳): 深層畳み込みニューラルネットワークアーキテクチャの性能に及ぼす損失画像と映像圧縮の影響について
- Authors: Matt Poyser, Amir Atapour-Abarghouei, Toby P. Breckon
- Abstract要約: 本研究では,画像と映像の圧縮技術がディープラーニングアーキテクチャの性能に与える影響について検討する。
本研究では,人間のポーズ推定,セマンティックセグメンテーション,オブジェクト検出,行動認識,単眼深度推定の5つのタスクにおけるパフォーマンスへの影響について検討する。
その結果,ネットワーク性能と損失圧縮のレベルとの間には,非線形および不均一な関係が認められた。
- 参考スコア(独自算出の注目度): 17.349420462716886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in generalized image understanding have seen a surge in the
use of deep convolutional neural networks (CNN) across a broad range of
image-based detection, classification and prediction tasks. Whilst the reported
performance of these approaches is impressive, this study investigates the
hitherto unapproached question of the impact of commonplace image and video
compression techniques on the performance of such deep learning architectures.
Focusing on the JPEG and H.264 (MPEG-4 AVC) as a representative proxy for
contemporary lossy image/video compression techniques that are in common use
within network-connected image/video devices and infrastructure, we examine the
impact on performance across five discrete tasks: human pose estimation,
semantic segmentation, object detection, action recognition, and monocular
depth estimation. As such, within this study we include a variety of network
architectures and domains spanning end-to-end convolution, encoder-decoder,
region-based CNN (R-CNN), dual-stream, and generative adversarial networks
(GAN). Our results show a non-linear and non-uniform relationship between
network performance and the level of lossy compression applied. Notably,
performance decreases significantly below a JPEG quality (quantization) level
of 15% and a H.264 Constant Rate Factor (CRF) of 40. However, retraining said
architectures on pre-compressed imagery conversely recovers network performance
by up to 78.4% in some cases. Furthermore, there is a correlation between
architectures employing an encoder-decoder pipeline and those that demonstrate
resilience to lossy image compression. The characteristics of the relationship
between input compression to output task performance can be used to inform
design decisions within future image/video devices and infrastructure.
- Abstract(参考訳): 近年の一般化画像理解の進歩により、深層畳み込みニューラルネットワーク(cnn: deep convolutional neural network)が幅広い画像に基づく検出、分類、予測タスクで利用されている。
これらのアプローチのパフォーマンスは印象的だが,本研究では,コモンプレイス画像とビデオ圧縮技術が,このようなディープラーニングアーキテクチャの性能に与える影響について検討する。
jpeg と h.264 (mpeg-4 avc) に着目し,ネットワーク接続型画像/映像デバイスおよびインフラストラクチャで共通に使用される現代的損失画像/ビデオ圧縮技術の代表例として,ポーズ推定,意味セグメンテーション,物体検出,行動認識,単眼深度推定の5つのタスクにおけるパフォーマンスへの影響について検討した。
そこで本研究では,エンド・ツー・エンドの畳み込み,エンコーダ・デコーダ,領域ベースのcnn (r-cnn),デュアルストリーム,ジェネレーティブ・アドバーサル・ネットワーク (gan) にまたがる様々なネットワークアーキテクチャとドメインについて述べる。
その結果,ネットワーク性能と損失圧縮のレベルとの間には非線形かつ均一な関係が認められた。
特に、JPEGの品質(量子化)の15%とH.264よりもパフォーマンスが大幅に低下する。
定速度係数(CRF)は40。
しかし、プレ圧縮画像上のアーキテクチャの再訓練は、ネットワーク性能を最大78.4%向上させる。
さらに、エンコーダデコーダパイプラインを用いたアーキテクチャと、損失画像圧縮に対するレジリエンスを示すアーキテクチャとの間には相関関係がある。
入力圧縮と出力タスクパフォーマンスの関係の特徴は、将来の画像/ビデオデバイスとインフラ内の設計決定に利用することができる。
関連論文リスト
- Releasing the Parameter Latency of Neural Representation for High-Efficiency Video Compression [18.769136361963472]
暗黙的ニューラル表現(INR)技術は、ビデオ全体を基本単位としてモデル化し、フレーム内およびフレーム間の相関を自動的にキャプチャする。
本稿では,INRビデオ圧縮の速度歪み特性を大幅に向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T15:19:31Z) - Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural Image Compression [58.618625678054826]
本研究は、最適な視覚的忠実度のために設計された強化されたニューラル圧縮手法を提案する。
我々は,洗練されたセマンティック・アンサンブル・ロス,シャルボニエ・ロス,知覚的損失,スタイル・ロス,非バイナリ・ディバイザ・ロスを組み込んだモデルを構築した。
実験により,本手法は神経画像圧縮の統計的忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-01-25T08:11:27Z) - Transferable Learned Image Compression-Resistant Adversarial Perturbations [66.46470251521947]
敵対的攻撃は容易に画像分類システムを破壊し、DNNベースの認識タスクの脆弱性を明らかにする。
我々は、学習した画像圧縮機を前処理モジュールとして利用する画像分類モデルをターゲットにした新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-06T03:03:28Z) - Analysis of the Effect of Low-Overhead Lossy Image Compression on the
Performance of Visual Crowd Counting for Smart City Applications [78.55896581882595]
画像圧縮技術は画像の品質を低下させ、精度を低下させる。
本稿では,低オーバヘッド損失画像圧縮法の適用が視覚的群集カウントの精度に与える影響を解析する。
論文 参考訳(メタデータ) (2022-07-20T19:20:03Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - Exploring Structural Sparsity in Neural Image Compression [14.106763725475469]
本稿では,各コンボリューションチャネルの重要性を判定し,トレーニング中に空間性を導入するために,ABCM(プラグイン適応型バイナリチャネルマスキング)を提案する。
推論中、重要でないチャネルをプルーニングしてスリムネットワークを得る。
実験の結果,最大7倍の計算削減と3倍の加速は無視可能な性能低下で達成できることがわかった。
論文 参考訳(メタデータ) (2022-02-09T17:46:49Z) - Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG
Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。
実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文 参考訳(メタデータ) (2022-01-27T20:20:03Z) - NeighCNN: A CNN based SAR Speckle Reduction using Feature preserving
Loss Function [1.7188280334580193]
NeighCNNは、乗法ノイズを処理するディープラーニングベースのスペックル削減アルゴリズムである。
様々な合成、および実際のSAR画像は、NeighCNNアーキテクチャのテストに使用される。
論文 参考訳(メタデータ) (2021-08-26T04:20:07Z) - Generic Perceptual Loss for Modeling Structured Output Dependencies [78.59700528239141]
トレーニングされた重みではなく、ネットワーク構造が重要であることを示す。
我々は、出力の構造化依存関係をモデル化するためにランダムに重み付けされたディープcnnが使用できることを実証する。
論文 参考訳(メタデータ) (2021-03-18T23:56:07Z) - Efficient CNN-LSTM based Image Captioning using Neural Network
Compression [0.0]
CNN-LSTMベースの画像キャプションモデルの非従来のエンドツーエンド圧縮パイプラインを紹介します。
次に、異なる圧縮アーキテクチャがモデルに与える影響を検討し、73.1%のモデルサイズ削減を実現する圧縮アーキテクチャを設計する。
論文 参考訳(メタデータ) (2020-12-17T16:25:09Z) - End-to-End JPEG Decoding and Artifacts Suppression Using Heterogeneous
Residual Convolutional Neural Network [0.0]
既存のディープラーニングモデルは、デコードプロトコルからJPEGアーティファクトを独立したタスクとして分離する。
我々は、スペクトル分解とヘテロジニアス再構成機構を備えた真のエンド・ツー・エンドヘテロジニアス残畳み込みニューラルネットワーク(HR-CNN)を設計する。
論文 参考訳(メタデータ) (2020-07-01T17:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。