論文の概要: EVC: Towards Real-Time Neural Image Compression with Mask Decay
- arxiv url: http://arxiv.org/abs/2302.05071v1
- Date: Fri, 10 Feb 2023 06:02:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-13 16:29:00.342326
- Title: EVC: Towards Real-Time Neural Image Compression with Mask Decay
- Title(参考訳): EVC: マスクダウンによるリアルタイムニューラルイメージ圧縮を目指す
- Authors: Guo-Hua Wang, Jiahao Li, Bin Li, Yan Lu
- Abstract要約: ニューラル画像圧縮は、RD性能のために最先端の伝統的なコーデック(H.266/VVC)を上回っている。
入力画像が768x512の30FPSで動作可能で,RD性能のVVCよりも優れた高効率単一モデル可変ビットレートコーデック(EVC)を提案する。
- 参考スコア(独自算出の注目度): 29.76392801329279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural image compression has surpassed state-of-the-art traditional codecs
(H.266/VVC) for rate-distortion (RD) performance, but suffers from large
complexity and separate models for different rate-distortion trade-offs. In
this paper, we propose an Efficient single-model Variable-bit-rate Codec (EVC),
which is able to run at 30 FPS with 768x512 input images and still outperforms
VVC for the RD performance. By further reducing both encoder and decoder
complexities, our small model even achieves 30 FPS with 1920x1080 input images.
To bridge the performance gap between our different capacities models, we
meticulously design the mask decay, which transforms the large model's
parameters into the small model automatically. And a novel sparsity
regularization loss is proposed to mitigate shortcomings of $L_p$
regularization. Our algorithm significantly narrows the performance gap by 50%
and 30% for our medium and small models, respectively. At last, we advocate the
scalable encoder for neural image compression. The encoding complexity is
dynamic to meet different latency requirements. We propose decaying the large
encoder multiple times to reduce the residual representation progressively.
Both mask decay and residual representation learning greatly improve the RD
performance of our scalable encoder. Our code is at
https://github.com/microsoft/DCVC.
- Abstract(参考訳): ニューラル画像圧縮は、RDのパフォーマンスにおいて最先端の伝統的なコーデック(H.266/VVC)を上回っているが、大きな複雑さと異なるレート歪みトレードオフのための分離モデルに悩まされている。
本稿では,768x512入力画像で30fpsで動作可能で,rd性能ではvvcよりも優れる,効率的な単一モデル可変ビットレートコーデック(evc)を提案する。
さらにエンコーダとデコーダの複雑さを減らし,1920×1080の入力画像で30FPSを実現した。
異なる容量モデル間の性能ギャップを埋めるために、我々はマスク崩壊を慎重に設計し、大きなモデルのパラメータを自動的に小さなモデルに変換する。
また、L_p$正規化の欠点を軽減するために、新しい疎正則化損失を提案する。
このアルゴリズムは,中小モデルでは50%,小モデルでは30%の性能差を著しく狭めている。
最後に,ニューラルネットワーク圧縮のためのスケーラブルエンコーダを提唱する。
エンコーディングの複雑さは、異なるレイテンシ要件を満たすために動的です。
本稿では, 大規模エンコーダを複数回減衰させて, 残留表現を段階的に減少させる手法を提案する。
マスク減衰と残留表現学習の両方が、スケーラブルエンコーダのRD性能を大幅に向上させる。
私たちのコードはhttps://github.com/microsoft/DCVCにあります。
関連論文リスト
- ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models [77.59651787115546]
高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。
本稿では,LMMのビジュアルエンコーダとして,階層的なバックボーンであるConvNeXtを用いるConvLLaVAを提案する。
ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。
論文 参考訳(メタデータ) (2024-05-24T17:34:15Z) - Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。
エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。
我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-12-15T08:46:43Z) - C3: High-performance and low-complexity neural compression from a single
image or video [16.770509909942312]
本稿では,強速度歪み(RD)性能を有するニューラル圧縮法であるC3を紹介する。
結果として生じるC3の復号複雑性は、同様のRD性能を持つニューラルベースラインよりも桁違いに低い。
論文 参考訳(メタデータ) (2023-12-05T13:28:59Z) - Computationally-Efficient Neural Image Compression with Shallow Decoders [43.115831685920114]
本稿では,JPEGに類似した浅い,あるいは線形な復号変換を用いることで,復号化複雑性のギャップを解消する。
我々は、より強力なエンコーダネットワークと反復符号化を採用することにより、符号化と復号の間のしばしば非対称な予算を利用する。
論文 参考訳(メタデータ) (2023-04-13T03:38:56Z) - Video Coding Using Learned Latent GAN Compression [1.6058099298620423]
ビデオの表現と圧縮にはStyleGANなどのGANの生成能力を活用する。
各フレームはStyleGANの潜在空間で反転され、そこから最適な圧縮が学習される。
論文 参考訳(メタデータ) (2022-07-09T19:07:43Z) - Asymmetric Learned Image Compression with Multi-Scale Residual Block,
Importance Map, and Post-Quantization Filtering [15.056672221375104]
ディープラーニングに基づく画像圧縮は、最新のH.266/VVCよりも高いレート歪み(R-D)性能を実現している。
多くの先導的な学習スキームは、パフォーマンスと複雑さの間の良いトレードオフを維持することができません。
そこで本研究では,R-D の性能を技術状況よりも低い複雑さで実現した,効率的かつ効果的な画像符号化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T09:34:29Z) - PILC: Practical Image Lossless Compression with an End-to-end GPU
Oriented Neural Framework [88.18310777246735]
本稿では,1台のNVIDIA Tesla V100 GPUを用いて,圧縮と圧縮の両面で200MB/sを実現するエンドツーエンド画像圧縮フレームワークを提案する。
実験により、我々のフレームワークは、複数のデータセットで30%のマージンで、PNGよりも圧縮が優れていることが示された。
論文 参考訳(メタデータ) (2022-06-10T03:00:10Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z) - Learning for Video Compression with Recurrent Auto-Encoder and Recurrent
Probability Model [164.7489982837475]
本稿では、リカレントオートエンコーダ(RAE)とリカレント確率モデル(RPM)を用いたリカレントラーニングビデオ圧縮(RLVC)手法を提案する。
RAEは、ビデオフレーム間の時間的相関を利用するために、エンコーダとデコーダの両方で繰り返しセルを使用する。
提案手法は,PSNRとMS-SSIMの両方の観点から,最先端の学習ビデオ圧縮性能を実現する。
論文 参考訳(メタデータ) (2020-06-24T08:46:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。