論文の概要: Identity Preserving Loss for Learned Image Compression
- arxiv url: http://arxiv.org/abs/2204.10869v2
- Date: Tue, 26 Apr 2022 02:49:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 10:24:43.281046
- Title: Identity Preserving Loss for Learned Image Compression
- Title(参考訳): 学習画像圧縮のためのアイデンティティ保存損失
- Authors: Jiuhong Xiao, Lavisha Aggarwal, Prithviraj Banerjee, Manoj Aggarwal
and Gerard Medioni
- Abstract要約: 本研究は,高圧縮率を実現するために,ドメイン固有の特徴を学習するエンドツーエンド画像圧縮フレームワークを提案する。
本稿では,CRF-23 HEVC圧縮の38%と42%のビット・パー・ピクセル(BPP)値が得られる新しいID保存再構成(IPR)ロス関数を提案する。
CRF-23 HEVC圧縮の38%の低いBPP値を保ちながら、未確認の認識モデルを用いてLFWデータセットの at-par 認識性能を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning model inference on embedded devices is challenging due to the
limited availability of computation resources. A popular alternative is to
perform model inference on the cloud, which requires transmitting images from
the embedded device to the cloud. Image compression techniques are commonly
employed in such cloud-based architectures to reduce transmission latency over
low bandwidth networks. This work proposes an end-to-end image compression
framework that learns domain-specific features to achieve higher compression
ratios than standard HEVC/JPEG compression techniques while maintaining
accuracy on downstream tasks (e.g., recognition). Our framework does not
require fine-tuning of the downstream task, which allows us to drop-in any
off-the-shelf downstream task model without retraining. We choose faces as an
application domain due to the ready availability of datasets and off-the-shelf
recognition models as representative downstream tasks. We present a novel
Identity Preserving Reconstruction (IPR) loss function which achieves
Bits-Per-Pixel (BPP) values that are ~38% and ~42% of CRF-23 HEVC compression
for LFW (low-resolution) and CelebA-HQ (high-resolution) datasets,
respectively, while maintaining parity in recognition accuracy. The superior
compression ratio is achieved as the model learns to retain the domain-specific
features (e.g., facial features) while sacrificing details in the background.
Furthermore, images reconstructed by our proposed compression model are robust
to changes in downstream model architectures. We show at-par recognition
performance on the LFW dataset with an unseen recognition model while retaining
a lower BPP value of ~38% of CRF-23 HEVC compression.
- Abstract(参考訳): 組み込みデバイス上でのディープラーニングモデル推論は、計算リソースが限られているため、難しい。
一般的な代替手段は、組み込みデバイスからクラウドにイメージを送信する必要があるクラウド上でモデル推論を実行することである。
画像圧縮技術は、低帯域幅ネットワーク上の伝送遅延を低減するために、クラウドベースのアーキテクチャで一般的に用いられている。
本研究は、ダウンストリームタスク(認識など)の精度を維持しながら、標準HEVC/JPEG圧縮技術よりも高い圧縮比を達成するために、ドメイン固有の特徴を学習するエンドツーエンド画像圧縮フレームワークを提案する。
私たちのフレームワークでは、ダウンストリームタスクの微調整は必要ありません。
代表的なダウンストリームタスクとして、データセットとオフセット認識モデルが利用可能であるため、アプリケーションドメインとして顔を選択します。
本稿では,lfw (low- resolution) とceleba-hq (high- resolution) データセットに対する crf-23 hevc 圧縮の ~38% と ~42% のビット毎ピクセル (bpp) の圧縮を,認識精度のパリティを保ちながら達成する,ipr損失関数を提案する。
モデルがドメイン固有の特徴(例えば顔の特徴)を保持することを学習し、背景の詳細を犠牲にして、優れた圧縮比を達成する。
さらに,提案した圧縮モデルにより再構成された画像は,下流モデルアーキテクチャの変化に対して堅牢である。
CRF-23 HEVC圧縮の38%程度の低いBPP値を維持しながら、未確認の認識モデルを用いてLFWデータセット上での at-par 認識性能を示す。
関連論文リスト
- Map-Assisted Remote-Sensing Image Compression at Extremely Low Bitrates [47.47031054057152]
生成モデルはRS画像を極低ビットレートストリームに圧縮するために研究されている。
これらの生成モデルは、非常に低ビットレート画像圧縮の極めて不適切な性質のため、視覚的に可視な画像の再構成に苦慮している。
本研究では,高現実性再構築を実現するために,自然画像に先行した事前学習拡散モデルを用いた画像圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-03T14:29:54Z) - Extreme Image Compression using Fine-tuned VQGANs [43.43014096929809]
本稿ではベクトル量子化(VQ)に基づく生成モデルを画像圧縮領域に導入する。
VQGANモデルによって学習されたコードブックは、強い表現能力をもたらす。
提案したフレームワークは、知覚的品質指向のメトリクスで最先端のコーデックより優れている。
論文 参考訳(メタデータ) (2023-07-17T06:14:19Z) - You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。
licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。
原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。
極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文 参考訳(メタデータ) (2023-06-27T15:36:22Z) - Are Visual Recognition Models Robust to Image Compression? [23.280147529096908]
画像圧縮が視覚認知タスクに与える影響を解析する。
我々は、0.1ビットから2ビット/ピクセル(bpp)までの幅広い圧縮レベルについて検討する。
これら3つのタスクすべてにおいて,強い圧縮を使用する場合,認識能力に大きな影響があることが判明した。
論文 参考訳(メタデータ) (2023-04-10T11:30:11Z) - Deep Lossy Plus Residual Coding for Lossless and Near-lossless Image
Compression [85.93207826513192]
本稿では、損失のない画像圧縮とほぼロスレス画像圧縮の両面において、統合された強力な深い損失+残差(DLPR)符号化フレームワークを提案する。
VAEのアプローチにおける連立損失と残留圧縮の問題を解く。
ほぼロスレスモードでは、元の残差を量子化し、与えられた$ell_infty$エラー境界を満たす。
論文 参考訳(メタデータ) (2022-09-11T12:11:56Z) - Estimating the Resize Parameter in End-to-end Learned Image Compression [50.20567320015102]
本稿では,最近の画像圧縮モデルの速度歪みトレードオフをさらに改善する検索自由化フレームワークについて述べる。
提案手法により,Bjontegaard-Deltaレート(BD-rate)を最大10%向上させることができる。
論文 参考訳(メタデータ) (2022-04-26T01:35:02Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - Variable-Rate Deep Image Compression through Spatially-Adaptive Feature
Transform [58.60004238261117]
空間特徴変換(SFT arXiv:1804.02815)に基づく多目的深部画像圧縮ネットワークを提案する。
本モデルは,任意の画素単位の品質マップによって制御される単一モデルを用いて,幅広い圧縮速度をカバーしている。
提案するフレームワークにより,様々なタスクに対してタスク対応の画像圧縮を行うことができる。
論文 参考訳(メタデータ) (2021-08-21T17:30:06Z) - Lossless Compression with Latent Variable Models [4.289574109162585]
我々は「非対称数値系を持つビットバック」(bb-ans)と呼ぶ潜在変数モデルを用いる。
この方法は、エンコードおよびデコードステップをインターリーブし、データのバッチ圧縮時に最適なレートを達成する。
我々は,深層生成モデルを用いた圧縮の高速プロトタイピングのために開発したモジュール型ソフトウェアフレームワークである'craystack'について述べる。
論文 参考訳(メタデータ) (2021-04-21T14:03:05Z) - Learning Scalable $\ell_\infty$-constrained Near-lossless Image
Compression via Joint Lossy Image and Residual Compression [118.89112502350177]
本稿では,$ell_infty$-constrained near-lossless image compressionを学習するための新しいフレームワークを提案する。
元の残差の学習確率モデルを定量化し、量子化残差の確率モデルを導出する。
論文 参考訳(メタデータ) (2021-03-31T11:53:36Z) - Distributed Learning and Inference with Compressed Images [40.07509530656681]
本稿では,自律運転に対する視覚に基づく認識をパラダイムシナリオとして取り上げる。
生成逆ネットワーク(GAN)を用いた画像復元に基づくデータセット復元を提案する。
本手法は,特定の画像圧縮手法と下流タスクの両方に非依存である。
論文 参考訳(メタデータ) (2020-04-22T11:20:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。