論文の概要: Reducing The Mismatch Between Marginal and Learned Distributions in
Neural Video Compression
- arxiv url: http://arxiv.org/abs/2210.06596v1
- Date: Wed, 12 Oct 2022 21:25:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 16:08:29.463229
- Title: Reducing The Mismatch Between Marginal and Learned Distributions in
Neural Video Compression
- Title(参考訳): ニューラルビデオ圧縮における辺縁分布と学習分布のミスマッチ低減
- Authors: Muhammet Balcilar, Bharath Bhushan Damodaran, Pierre Hellier
- Abstract要約: 機械学習(ML)技術は圧縮技術の全コンポーネントを学習し、実際の優位性を説明する。
エンドツーエンドのMLモデルは、VVCのような従来のビデオコーデックのパフォーマンスにはまだ達していない。
本稿では,3つの最先端MLビデオ圧縮手法のアモータイズギャップを評価することを提案する。
- 参考スコア(独自算出の注目度): 3.093890460224435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: During the last four years, we have witnessed the success of end-to-end
trainable models for image compression. Compared to decades of incremental
work, these machine learning (ML) techniques learn all the components of the
compression technique, which explains their actual superiority. However,
end-to-end ML models have not yet reached the performance of traditional video
codecs such as VVC. Possible explanations can be put forward: lack of data to
account for the temporal redundancy, or inefficiency of latent's density
estimation in the neural model. The latter problem can be defined by the
discrepancy between the latent's marginal distribution and the learned prior
distribution. This mismatch, known as amortization gap of entropy model,
enlarges the file size of compressed data. In this paper, we propose to
evaluate the amortization gap for three state-of-the-art ML video compression
methods. Second, we propose an efficient and generic method to solve the
amortization gap and show that it leads to an improvement between $2\%$ to
$5\%$ without impacting reconstruction quality.
- Abstract(参考訳): 過去4年間、私たちは画像圧縮のためのエンドツーエンドのトレーニング可能なモデルの成功を目の当たりにした。
これらの機械学習(ml)技術は、何十年ものインクリメンタルな作業と比較して、圧縮テクニックのすべてのコンポーネントを学習します。
しかし、エンドツーエンドのMLモデルはVVCのような従来のビデオコーデックのパフォーマンスには達していない。
考えられる説明は、時間的冗長性を考慮したデータの欠如、あるいはニューラルモデルにおける潜在性の密度推定の非効率性である。
後者の問題は、潜在者の限界分布と学習前の分布との相違によって定義される。
このミスマッチはエントロピーモデルの償却ギャップと呼ばれ、圧縮されたデータのファイルサイズを拡大する。
本稿では,3つの最先端MLビデオ圧縮手法のアモータイズギャップを評価することを提案する。
第2に,アモータイズギャップを解決するための効率的で汎用的な手法を提案し,再建品質に影響を与えることなく,2\%から5\%の精度向上につながることを示した。
関連論文リスト
- MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - Robustly overfitting latents for flexible neural image compression [1.7041035606170198]
最先端のニューラルイメージ圧縮モデルは、デコーダに効率的に送信できる量子化潜在表現に画像をエンコードすることを学ぶ。
これらのモデルは実際に成功したが、エンコーダとデコーダの容量が不完全な最適化と制限のため、準最適結果をもたらす。
最近の研究は、Gumbel annealing(SGA)を使用して、トレーニング済みのニューラルイメージ圧縮モデルの潜在性を洗練する方法を示している。
提案手法は,R-Dトレードオフの観点から,前者に比べて圧縮性能が向上することを示す。
論文 参考訳(メタデータ) (2024-01-31T12:32:17Z) - DiffRate : Differentiable Compression Rate for Efficient Vision
Transformers [98.33906104846386]
Token圧縮は、プルーニング(ドロップ)やトークンのマージによって、大規模な視覚変換器(ViTなど)を高速化することを目的としている。
DiffRate(ディフレート)は、先行技術にはないいくつかの魅力的な特性を持つ新しいトークン圧縮手法である。
論文 参考訳(メタデータ) (2023-05-29T10:15:19Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z) - Cross Modal Compression: Towards Human-comprehensible Semantic
Compression [73.89616626853913]
クロスモーダル圧縮は、視覚データのためのセマンティック圧縮フレームワークである。
提案したCMCは,超高圧縮比で再現性の向上が期待できることを示す。
論文 参考訳(メタデータ) (2022-09-06T15:31:11Z) - Reducing The Amortization Gap of Entropy Bottleneck In End-to-End Image
Compression [2.1485350418225244]
エンド・ツー・エンドのディープ・トレーニング可能なモデルは、ビデオや画像の従来の手作り圧縮技術の性能をほぼ上回っている。
本稿では,このアモート化ギャップを小さなコストで低減する,シンプルで効率的なインスタンスベースのパラメータ化手法を提案する。
論文 参考訳(メタデータ) (2022-09-02T11:43:45Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - Learning Scalable $\ell_\infty$-constrained Near-lossless Image
Compression via Joint Lossy Image and Residual Compression [118.89112502350177]
本稿では,$ell_infty$-constrained near-lossless image compressionを学習するための新しいフレームワークを提案する。
元の残差の学習確率モデルを定量化し、量子化残差の確率モデルを導出する。
論文 参考訳(メタデータ) (2021-03-31T11:53:36Z) - Overfitting for Fun and Profit: Instance-Adaptive Data Compression [20.764189960709164]
ニューラルデータ圧縮は、RD$パフォーマンスの点で古典的手法より優れていることが示されている。
本稿では,この概念を極端に取り入れ,全モデルを単一ビデオに適用し,潜在表現とともにモデル更新を送信する。
エンコーダのみの微調整に関して,フルモデル適応によりRD$性能が1dB向上することが実証された。
論文 参考訳(メタデータ) (2021-01-21T15:58:58Z) - Improving Inference for Neural Image Compression [31.999462074510305]
State-of-the-art method build on Hierarchical variational autoencoders to predict a compressible latent representation of each data point。
従来の手法では性能を制限した3つの近似ギャップを同定する。
本稿では,これら3つの制約のそれぞれについて,反復的推論に関する考え方に基づく対策を提案する。
論文 参考訳(メタデータ) (2020-06-07T19:26:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。