論文の概要: End-to-End Learnable Multi-Scale Feature Compression for VCM
- arxiv url: http://arxiv.org/abs/2306.16670v3
- Date: Tue, 8 Aug 2023 05:00:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 16:34:56.037145
- Title: End-to-End Learnable Multi-Scale Feature Compression for VCM
- Title(参考訳): VCMのためのエンドツーエンド学習型マルチスケール特徴圧縮
- Authors: Yeongwoong Kim, Hyewon Jeong, Janghyun Yu, Younhee Kim, Jooyoung Lee,
Se Yoon Jeong, and Hui Yong Kim
- Abstract要約: 抽出した特徴量に対するエンドツーエンドの最適化と軽量エンコーダの設計を可能にする,新しいマルチスケール特徴量圧縮手法を提案する。
我々のモデルは、BDレートを少なくとも52%削減し、オブジェクト検出の符号化時間を$times5$から$times27$に短縮する。
- 参考スコア(独自算出の注目度): 8.037759667748768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of deep learning-based machine vision applications has
given rise to a new type of compression, so called video coding for machine
(VCM). VCM differs from traditional video coding in that it is optimized for
machine vision performance instead of human visual quality. In the feature
compression track of MPEG-VCM, multi-scale features extracted from images are
subject to compression. Recent feature compression works have demonstrated that
the versatile video coding (VVC) standard-based approach can achieve a BD-rate
reduction of up to 96% against MPEG-VCM feature anchor. However, it is still
sub-optimal as VVC was not designed for extracted features but for natural
images. Moreover, the high encoding complexity of VVC makes it difficult to
design a lightweight encoder without sacrificing performance. To address these
challenges, we propose a novel multi-scale feature compression method that
enables both the end-to-end optimization on the extracted features and the
design of lightweight encoders. The proposed model combines a learnable
compressor with a multi-scale feature fusion network so that the redundancy in
the multi-scale features is effectively removed. Instead of simply cascading
the fusion network and the compression network, we integrate the fusion and
encoding processes in an interleaved way. Our model first encodes a
larger-scale feature to obtain a latent representation and then fuses the
latent with a smaller-scale feature. This process is successively performed
until the smallest-scale feature is fused and then the encoded latent at the
final stage is entropy-coded for transmission. The results show that our model
outperforms previous approaches by at least 52% BD-rate reduction and has
$\times5$ to $\times27$ times less encoding time for object detection...
- Abstract(参考訳): ディープラーニングベースのマシンビジョンアプリケーションの普及により、ビデオ符号化(VCM)と呼ばれる新しいタイプの圧縮が生まれている。
VCMは従来のビデオコーディングとは異なり、人間の視覚的品質ではなく、マシンビジョンのパフォーマンスに最適化されている。
MPEG-VCMの特徴圧縮トラックでは,画像から抽出したマルチスケール特徴を圧縮する。
近年,MPEG-VCM機能アンカーに対するBDレートを最大96%削減できる多目的ビデオ符号化(VVC)標準方式が実証されている。
しかし、vvcは抽出された特徴ではなく、自然画像のために設計されたため、まだ最適ではない。
さらに、VVCの符号化複雑性が高いため、性能を犠牲にすることなく軽量エンコーダの設計が困難になる。
これらの課題に対処するため,我々は,抽出された特徴のエンドツーエンド最適化と軽量エンコーダの設計を両立する,新しいマルチスケール特徴圧縮手法を提案する。
提案モデルは,学習可能な圧縮機とマルチスケール特徴融合ネットワークを組み合わせることで,マルチスケール特徴の冗長性を効果的に除去する。
融合ネットワークと圧縮ネットワークを単純にカスケードする代わりに、融合処理と符号化処理をインターリーブ方式で統合する。
提案モデルでは,まず大規模特徴を符号化して潜伏表現を取得し,さらに小型特徴量で潜伏表現を融合する。
この処理は、最小のスケール特徴が融合するまで連続して行われ、最終段階のエントロピー符号化によりエントロピー符号化が行われる。
その結果、我々のモデルは、BDレートを少なくとも52%削減し、オブジェクト検出のエンコードタイムを$\times5$から$\times27$に短縮した。
関連論文リスト
- Accelerating Learned Video Compression via Low-Resolution Representation Learning [18.399027308582596]
低解像度表現学習に焦点を当てた学習ビデオ圧縮のための効率最適化フレームワークを提案する。
提案手法は,H.266参照ソフトウェアVTMの低遅延P構成と同等の性能を実現する。
論文 参考訳(メタデータ) (2024-07-23T12:02:57Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Device Interoperability for Learned Image Compression with Weights and
Activations Quantization [1.373801677008598]
本稿では,最先端の画像圧縮ネットワークのデバイス相互運用性問題を解決する手法を提案する。
本稿では,クロスプラットフォームの符号化と復号化を保証し,高速に実装できる簡易な手法を提案する。
論文 参考訳(メタデータ) (2022-12-02T17:45:29Z) - Deep Lossy Plus Residual Coding for Lossless and Near-lossless Image
Compression [85.93207826513192]
本稿では、損失のない画像圧縮とほぼロスレス画像圧縮の両面において、統合された強力な深い損失+残差(DLPR)符号化フレームワークを提案する。
VAEのアプローチにおける連立損失と残留圧縮の問題を解く。
ほぼロスレスモードでは、元の残差を量子化し、与えられた$ell_infty$エラー境界を満たす。
論文 参考訳(メタデータ) (2022-09-11T12:11:56Z) - Block Modulating Video Compression: An Ultra Low Complexity Image
Compression Encoder for Resource Limited Platforms [15.646001803032421]
省電力・計算資源の少ないモバイルプラットフォーム上で, BMVCの超低コスト化が提案されている。
ディープニューラルネットワークによって実装された2種類のBMVCデコーダを提示する。
論文 参考訳(メタデータ) (2022-05-07T16:20:09Z) - Microdosing: Knowledge Distillation for GAN based Compression [18.140328230701233]
そこで本研究では,知識蒸留を利用した画像デコーダの有効化について,元のパラメータ数のごく一部で示す。
これにより、モデルサイズを20倍に削減し、デコード時間の50%削減を実現できます。
論文 参考訳(メタデータ) (2022-01-07T14:27:16Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z) - A Unified End-to-End Framework for Efficient Deep Image Compression [35.156677716140635]
本稿では,3つの新しい技術に基づくEDIC(Efficient Deep Image Compression)という統合フレームワークを提案する。
具体的には、学習に基づく画像圧縮のためのオートエンコーダスタイルのネットワークを設計する。
EDIC法は,映像圧縮性能を向上させるために,Deep Video Compression (DVC) フレームワークに容易に組み込むことができる。
論文 参考訳(メタデータ) (2020-02-09T14:21:08Z) - Video Coding for Machines: A Paradigm of Collaborative Compression and
Intelligent Analytics [127.65410486227007]
フレーム全体を圧縮、再構成することを目的としたビデオ符号化と、最も重要な情報のみを保存し、送信する特徴圧縮は、スケールの2つの端に立つ。
最近のビデオ圧縮の急激なトレンド、例えばディープラーニングベースのコーディングツールやエンドツーエンドの画像/ビデオコーディング、MPEG-7のコンパクトな特徴記述子標準などの取り組みは、持続的かつ迅速な開発を促進する。
本稿では,新たな領域であるVCM(Video Coding for Machines)の探索を行う。
論文 参考訳(メタデータ) (2020-01-10T17:24:13Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。