論文の概要: Spatiotemporal Entropy Model is All You Need for Learned Video
Compression
- arxiv url: http://arxiv.org/abs/2104.06083v1
- Date: Tue, 13 Apr 2021 10:38:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 20:52:30.248574
- Title: Spatiotemporal Entropy Model is All You Need for Learned Video
Compression
- Title(参考訳): 時空間エントロピーモデルは、学習ビデオ圧縮に必要な全てである
- Authors: Zhenhong Sun, Zhiyu Tan, Xiuyu Sun, Fangyi Zhang, Dongyang Li, Yichen
Qian, Hao Li
- Abstract要約: 生のピクセルフレーム(残像ではなく)を圧縮する枠組みを提案する。
エントロピーモデルはピクセルレベルではなく潜在空間における時間的冗長性を推定するために用いられる。
実験の結果,提案手法は最先端(SOTA)性能より優れていた。
- 参考スコア(独自算出の注目度): 9.227865598115024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The framework of dominant learned video compression methods is usually
composed of motion prediction modules as well as motion vector and residual
image compression modules, suffering from its complex structure and error
propagation problem. Approaches have been proposed to reduce the complexity by
replacing motion prediction modules with implicit flow networks. Error
propagation aware training strategy is also proposed to alleviate incremental
reconstruction errors from previously decoded frames. Although these methods
have brought some improvement, little attention has been paid to the framework
itself. Inspired by the success of learned image compression through
simplifying the framework with a single deep neural network, it is natural to
expect a better performance in video compression via a simple yet appropriate
framework. Therefore, we propose a framework to directly compress raw-pixel
frames (rather than residual images), where no extra motion prediction module
is required. Instead, an entropy model is used to estimate the spatiotemporal
redundancy in a latent space rather than pixel level, which significantly
reduces the complexity of the framework. Specifically, the whole framework is a
compression module, consisting of a unified auto-encoder which produces
identically distributed latents for all frames, and a spatiotemporal entropy
estimation model to minimize the entropy of these latents. Experiments showed
that the proposed method outperforms state-of-the-art (SOTA) performance under
the metric of multiscale structural similarity (MS-SSIM) and achieves
competitive results under the metric of PSNR.
- Abstract(参考訳): 支配的な学習ビデオ圧縮手法の枠組みは、通常、動作予測モジュールと、その複雑な構造とエラー伝播問題に苦しむ動きベクトルおよび残留画像圧縮モジュールから構成される。
動き予測モジュールを暗黙のフローネットワークに置き換えることで、複雑さを減らすためのアプローチが提案されている。
また、以前に復号されたフレームからの漸進的な再構成誤差を軽減するために、誤り伝播認識訓練戦略を提案する。
これらの手法は改善をもたらしたが、フレームワーク自体にはほとんど注意が払われていない。
単一のディープニューラルネットワークでフレームワークをシンプルにすることで、学習した画像圧縮の成功に触発されて、単純で適切なフレームワークによるビデオ圧縮のパフォーマンス向上を期待するのは自然なことだ。
そこで我々は,余分な動き予測モジュールが不要な(残像ではなく)生画素フレームを直接圧縮する枠組みを提案する。
代わりにエントロピーモデルは、ピクセルレベルではなく潜在空間における時空間冗長性の推定に使われ、フレームワークの複雑さを大幅に減少させる。
具体的には、すべてのフレームに対して同一に分散されたラテントを生成する統一されたオートエンコーダと、これらのラテントのエントロピーを最小化する時空間エントロピー推定モデルからなる圧縮モジュールである。
実験により,提案手法はマルチスケール構造類似度(MS-SSIM)の計測値でSOTA(State-of-the-art)性能より優れ,PSNRの計測値で競合する結果が得られた。
関連論文リスト
- MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - IBVC: Interpolation-driven B-frame Video Compression [68.18440522300536]
Bフレームビデオ圧縮は、双方向動作推定と動き補償(MEMC)符号化をミドルフレーム再構成に適用することを目的としている。
従来の学習アプローチでは、しばしば双方向の光フロー推定に依存するニューラルネットワークのPフレームコーデックをBフレームに直接拡張する。
これらの問題に対処するために,IBVC (Interpolation-B-frame Video Compression) という単純な構造を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:45:51Z) - Spatial-Temporal Transformer based Video Compression Framework [44.723459144708286]
本稿では,STT-VC(Spatial-Temporal Transformer based Video Compression)フレームワークを提案する。
動作推定と補償のためのオフセット推定のためのUformerベースのオフセット推定を備えたRelaxed Deformable Transformer (RDT)と、予測改善のためのマルチ参照フレームに基づくMulti-Granularity Prediction (MGP)モジュールと、時間空間的継手残留圧縮を効率的に行うSpatial Feature Distribution prior based Transformer (SFD-T)を含む。
実験の結果,VTMよりも13.5%のBD-Rateを節約できることがわかった。
論文 参考訳(メタデータ) (2023-09-21T09:23:13Z) - Learning Dynamic Point Cloud Compression via Hierarchical Inter-frame
Block Matching [35.80653765524654]
3Dダイナミックポイントクラウド(DPC)圧縮は、その時間的コンテキストのマイニングに依存している。
本稿では,階層的ブロックマッチングに基づく予測モジュールを用いた学習型DPC圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-09T11:44:13Z) - Entroformer: A Transformer-based Entropy Model for Learned Image
Compression [17.51693464943102]
本稿では,確率分布推定における長距離依存性を捉えるために,トランスフォーマを用いたエントロピーモデルEntroformerを提案する。
実験の結果,Entroformerは時間効率を保ちながら,画像圧縮の最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-02-11T08:03:31Z) - Causal Contextual Prediction for Learned Image Compression [36.08393281509613]
本稿では,逐次的復号化プロセスを利用して潜在空間における因果文脈のエントロピー予測を行うために,分離エントロピー符号化の概念を提案する。
チャネル間の潜伏を分離し、チャネル間の関係を利用して高度に情報的コンテキストを生成する因果コンテキストモデルを提案する。
また、未知点の正確な予測のためのグローバル参照ポイントを見つけることができる因果的大域的予測モデルを提案する。
論文 参考訳(メタデータ) (2020-11-19T08:15:10Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z) - Learning Context-Based Non-local Entropy Modeling for Image Compression [140.64888994506313]
本稿では,文脈内でのグローバルな類似性を利用して,文脈モデリングのための非局所的操作を提案する。
エントロピーモデルはさらに、結合速度歪み最適化における速度損失として採用されている。
低歪みモデルのトレーニングに変換の幅が不可欠であることを考えると、最終的に変換のU-Netブロックを生成して、管理可能なメモリ消費と時間複雑性で幅を拡大する。
論文 参考訳(メタデータ) (2020-05-10T13:28:18Z) - Blurry Video Frame Interpolation [57.77512131536132]
本稿では,ぼやけた動きとアップコンバートのフレームレートを同時に低減する,ぼやけたビデオフレーム手法を提案する。
具体的には、透明な中間フレームを循環的に合成するピラミッドモジュールを開発する。
我々の手法は最先端の手法に対して好適に機能する。
論文 参考訳(メタデータ) (2020-02-27T17:00:26Z) - Video Face Super-Resolution with Motion-Adaptive Feedback Cell [90.73821618795512]
深部畳み込みニューラルネットワーク(CNN)の発展により,ビデオ超解像法(VSR)は近年,顕著な成功を収めている。
本稿では,動作補償を効率的に捕捉し,適応的にネットワークにフィードバックする,シンプルで効果的なブロックである動き適応型フィードバックセル(MAFC)を提案する。
論文 参考訳(メタデータ) (2020-02-15T13:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。