論文の概要: Are Visual Recognition Models Robust to Image Compression?
- arxiv url: http://arxiv.org/abs/2304.04518v1
- Date: Mon, 10 Apr 2023 11:30:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 15:19:43.219271
- Title: Are Visual Recognition Models Robust to Image Compression?
- Title(参考訳): 視覚認識モデルは画像圧縮に堅牢か?
- Authors: Jo\~ao Maria Janeiro, Stanislav Frolov, Alaaeldin El-Nouby, Jakob
Verbeek
- Abstract要約: 画像圧縮が視覚認知タスクに与える影響を解析する。
我々は、0.1ビットから2ビット/ピクセル(bpp)までの幅広い圧縮レベルについて検討する。
これら3つのタスクすべてにおいて,強い圧縮を使用する場合,認識能力に大きな影響があることが判明した。
- 参考スコア(独自算出の注目度): 23.280147529096908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reducing the data footprint of visual content via image compression is
essential to reduce storage requirements, but also to reduce the bandwidth and
latency requirements for transmission. In particular, the use of compressed
images allows for faster transfer of data, and faster response times for visual
recognition in edge devices that rely on cloud-based services. In this paper,
we first analyze the impact of image compression using traditional codecs, as
well as recent state-of-the-art neural compression approaches, on three visual
recognition tasks: image classification, object detection, and semantic
segmentation. We consider a wide range of compression levels, ranging from 0.1
to 2 bits-per-pixel (bpp). We find that for all three tasks, the recognition
ability is significantly impacted when using strong compression. For example,
for segmentation mIoU is reduced from 44.5 to 30.5 mIoU when compressing to 0.1
bpp using the best compression model we evaluated. Second, we test to what
extent this performance drop can be ascribed to a loss of relevant information
in the compressed image, or to a lack of generalization of visual recognition
models to images with compression artefacts. We find that to a large extent the
performance loss is due to the latter: by finetuning the recognition models on
compressed training images, most of the performance loss is recovered. For
example, bringing segmentation accuracy back up to 42 mIoU, i.e. recovering 82%
of the original drop in accuracy.
- Abstract(参考訳): 画像圧縮によるビジュアルコンテンツのデータフットプリントの削減は、ストレージ要件の削減だけでなく、伝送の帯域幅とレイテンシ要件の低減にも不可欠である。
特に、圧縮画像を使用することで、データ転送の高速化と、クラウドベースのサービスに依存するエッジデバイスにおける視覚的認識の応答時間の高速化が可能になる。
本稿では,従来のコーデックと最近の最先端のニューラル圧縮手法を用いて,画像分類,オブジェクト検出,セマンティックセグメンテーションの3つの視覚的認識課題に対する画像圧縮の影響を初めて分析する。
我々は、0.1ビットから2ビット/ピクセル(bpp)までの幅広い圧縮レベルについて検討する。
3つのタスクすべてにおいて、強い圧縮を使用する場合、認識能力に大きな影響を及ぼすことがわかった。
例えば、セグメンテーションmIoUは、評価した最良の圧縮モデルを用いて0.1bppに圧縮すると44.5mIoUから30.5mIoUに削減される。
第2に,圧縮画像における関連情報の欠落や,圧縮アーチファクトを有する画像に対する視覚認識モデルの一般化の欠如により,この性能低下がどの程度生じるかを検証する。
圧縮訓練画像の認識モデルを微調整することにより,性能損失の大部分が回収される。
例えば、セグメンテーションの精度を42 mIoUに戻す、すなわち元のドロップの82%の精度を回復させる。
関連論文リスト
- The Effect of Lossy Compression on 3D Medical Images Segmentation with Deep Learning [39.97900702763419]
我々は、20倍の圧縮損失がディープニューラルネットワーク(DNN)によるセグメンテーション品質に悪影響を及ぼさないことを示した。
さらに、圧縮データに基づいて訓練されたDNNモデルを用いて、圧縮されていないデータを予測する能力を示す。
論文 参考訳(メタデータ) (2024-09-25T08:31:37Z) - CompaCT: Fractal-Based Heuristic Pixel Segmentation for Lossless
Compression of High-Color DICOM Medical Images [0.0]
医用画像は、医師による正確な分析のために、ピクセル単位の12ビットの高色深度を必要とする。
フィルタリングによる画像の標準圧縮はよく知られているが、具体化されていない実装のため、医療領域ではまだ最適ではない。
本研究では,動的に拡張されたデータ処理のための画素濃度の空間的特徴とパターンをターゲットとした医用画像圧縮アルゴリズムCompaCTを提案する。
論文 参考訳(メタデータ) (2023-08-24T21:43:04Z) - Crowd Counting on Heavily Compressed Images with Curriculum Pre-Training [90.76576712433595]
ディープニューラルネットワークによって処理された画像に損失圧縮を適用することで、大幅な精度低下につながる可能性がある。
カリキュラム学習のパラダイムに着想を得て,圧縮画像の群集カウントのためのカリキュラム事前学習(CPT)と呼ばれる新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-08-15T08:43:21Z) - Analysis of the Effect of Low-Overhead Lossy Image Compression on the
Performance of Visual Crowd Counting for Smart City Applications [78.55896581882595]
画像圧縮技術は画像の品質を低下させ、精度を低下させる。
本稿では,低オーバヘッド損失画像圧縮法の適用が視覚的群集カウントの精度に与える影響を解析する。
論文 参考訳(メタデータ) (2022-07-20T19:20:03Z) - Estimating the Resize Parameter in End-to-end Learned Image Compression [50.20567320015102]
本稿では,最近の画像圧縮モデルの速度歪みトレードオフをさらに改善する検索自由化フレームワークについて述べる。
提案手法により,Bjontegaard-Deltaレート(BD-rate)を最大10%向上させることができる。
論文 参考訳(メタデータ) (2022-04-26T01:35:02Z) - Identity Preserving Loss for Learned Image Compression [0.0]
本研究は,高圧縮率を実現するために,ドメイン固有の特徴を学習するエンドツーエンド画像圧縮フレームワークを提案する。
本稿では,CRF-23 HEVC圧縮の38%と42%のビット・パー・ピクセル(BPP)値が得られる新しいID保存再構成(IPR)ロス関数を提案する。
CRF-23 HEVC圧縮の38%の低いBPP値を保ちながら、未確認の認識モデルを用いてLFWデータセットの at-par 認識性能を示す。
論文 参考訳(メタデータ) (2022-04-22T18:01:01Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - Analyzing and Mitigating JPEG Compression Defects in Deep Learning [69.04777875711646]
本稿では,JPEG圧縮が共通タスクやデータセットに与える影響を統一的に検討する。
高圧縮の一般的なパフォーマンス指標には大きなペナルティがあることが示される。
論文 参考訳(メタデータ) (2020-11-17T20:32:57Z) - Distributed Learning and Inference with Compressed Images [40.07509530656681]
本稿では,自律運転に対する視覚に基づく認識をパラダイムシナリオとして取り上げる。
生成逆ネットワーク(GAN)を用いた画像復元に基づくデータセット復元を提案する。
本手法は,特定の画像圧縮手法と下流タスクの両方に非依存である。
論文 参考訳(メタデータ) (2020-04-22T11:20:53Z) - Discernible Image Compression [124.08063151879173]
本稿では、外観と知覚の整合性の両方を追求し、圧縮画像を作成することを目的とする。
エンコーダ・デコーダ・フレームワークに基づいて,事前学習したCNNを用いて,オリジナル画像と圧縮画像の特徴を抽出する。
ベンチマーク実験により,提案手法を用いて圧縮した画像は,その後の視覚認識・検出モデルでもよく認識できることが示された。
論文 参考訳(メタデータ) (2020-02-17T07:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。