論文の概要: CPIPS: Learning to Preserve Perceptual Distances in End-to-End Image
Compression
- arxiv url: http://arxiv.org/abs/2310.00559v1
- Date: Sun, 1 Oct 2023 03:29:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 03:28:39.937778
- Title: CPIPS: Learning to Preserve Perceptual Distances in End-to-End Image
Compression
- Title(参考訳): CPIPS:エンド・ツー・エンド画像圧縮における知覚距離の学習
- Authors: Chen-Hsiu Huang, Ja-Ling Wu
- Abstract要約: 本稿では,人間の視覚だけでなく,画像処理やマシンビジョンにも応用できる効率的な圧縮表現を提案する。
提案手法であるCPIPS(Compressed Perceptual Image Patch similarity)は,LPIPSやdisTSよりもはるかに高速に計算されたニューラルネットワークから最小限のコストで抽出できる。
- 参考スコア(独自算出の注目度): 1.0878040851638
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Lossy image coding standards such as JPEG and MPEG have successfully achieved
high compression rates for human consumption of multimedia data. However, with
the increasing prevalence of IoT devices, drones, and self-driving cars,
machines rather than humans are processing a greater portion of captured visual
content. Consequently, it is crucial to pursue an efficient compressed
representation that caters not only to human vision but also to image
processing and machine vision tasks. Drawing inspiration from the efficient
coding hypothesis in biological systems and the modeling of the sensory cortex
in neural science, we repurpose the compressed latent representation to
prioritize semantic relevance while preserving perceptual distance. Our
proposed method, Compressed Perceptual Image Patch Similarity (CPIPS), can be
derived at a minimal cost from a learned neural codec and computed
significantly faster than DNN-based perceptual metrics such as LPIPS and DISTS.
- Abstract(参考訳): jpegやmpegなどの画像符号化規格は、マルチメディアデータの人間の消費に対して高い圧縮率を達成している。
しかし、IoTデバイスやドローン、自動運転車の普及に伴い、人間ではなく機械が、捕獲された視覚コンテンツの大部分を処理している。
したがって、人間の視覚だけでなく、画像処理やマシンビジョンタスクにも適応する効率的な圧縮表現を追求することが重要である。
生体系における効率的な符号化仮説と神経科学における感覚野のモデル化からインスピレーションを得て,圧縮された潜在表現を用いて,知覚距離を保ちながら意味的関連性を優先する。
提案手法であるCPIPS(Compressed Perceptual Image Patch similarity)は,学習したニューラルコーデックから最小限のコストで抽出することができ,LPIPSやdisTSなどのDNNベースの知覚指標よりも大幅に高速に計算できる。
関連論文リスト
- Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural Image Compression [58.618625678054826]
本研究は、最適な視覚的忠実度のために設計された強化されたニューラル圧縮手法を提案する。
我々は,洗練されたセマンティック・アンサンブル・ロス,シャルボニエ・ロス,知覚的損失,スタイル・ロス,非バイナリ・ディバイザ・ロスを組み込んだモデルを構築した。
実験により,本手法は神経画像圧縮の統計的忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-01-25T08:11:27Z) - Transferable Learned Image Compression-Resistant Adversarial Perturbations [66.46470251521947]
敵対的攻撃は容易に画像分類システムを破壊し、DNNベースの認識タスクの脆弱性を明らかにする。
我々は、学習した画像圧縮機を前処理モジュールとして利用する画像分類モデルをターゲットにした新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-06T03:03:28Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - A Deep Learning-based Compression and Classification Technique for Whole
Slide Histopathology Images [0.31498833540989407]
我々は、ニューラルネットワークのアンサンブルを構築し、圧縮オートエンコーダを教師付き方式で、入力されたヒストロジー画像のより密度が高くより意味のある表現を維持することができる。
転送学習に基づく分類器を用いて圧縮画像を検証し、有望な精度と分類性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-11T22:20:05Z) - Convolutional Neural Network (CNN) to reduce construction loss in JPEG
compression caused by Discrete Fourier Transform (DFT) [0.0]
畳み込みニューラルネットワーク(CNN)は他の多くのディープニューラルネットワークよりも注目されている。
本研究では,オートエンコーダを用いた効率的な画像圧縮手法を提案する。
論文 参考訳(メタデータ) (2022-08-26T12:46:16Z) - Preprocessing Enhanced Image Compression for Machine Vision [14.895698385236937]
本稿では,マシンビジョンタスクのための前処理による画像圧縮手法を提案する。
私たちのフレームワークは従来の非微分コーデックの上に構築されています。
実験の結果,提案手法は,約20%の節約により,ダウンストリームマシンビジョンタスクのコーディングと性能のトレードオフを向上することが示された。
論文 参考訳(メタデータ) (2022-06-12T03:36:38Z) - Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG
Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。
実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文 参考訳(メタデータ) (2022-01-27T20:20:03Z) - A New Image Codec Paradigm for Human and Machine Uses [53.48873918537017]
本研究では,人間用と機械用の両方にスケーラブルな画像パラダイムを提案する。
高レベルのインスタンスセグメンテーションマップと低レベルの信号特徴をニューラルネットワークで抽出する。
画像は16ビットのグレースケールプロファイルと信号特徴を持つ一般的な画質のイメージ再構成を実現するために設計および訓練される。
論文 参考訳(メタデータ) (2021-12-19T06:17:38Z) - Image coding for machines: an end-to-end learned approach [23.92748892163087]
本稿では,ニューラルネットワーク(NN)とエンドツーエンド学習を併用したマシンのための画像を提案する。
我々のNNベースのタスクは、オブジェクト検出およびインスタンス分割タスクにおいて、最先端のVersa-tile Video Coding(VVC)標準よりも優れていることを示す。
私たちの知る限りでは、これが初めて学習された機械学習画像の歪みである。
論文 参考訳(メタデータ) (2021-08-23T07:54:42Z) - Discernible Image Compression [124.08063151879173]
本稿では、外観と知覚の整合性の両方を追求し、圧縮画像を作成することを目的とする。
エンコーダ・デコーダ・フレームワークに基づいて,事前学習したCNNを用いて,オリジナル画像と圧縮画像の特徴を抽出する。
ベンチマーク実験により,提案手法を用いて圧縮した画像は,その後の視覚認識・検出モデルでもよく認識できることが示された。
論文 参考訳(メタデータ) (2020-02-17T07:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。