論文の概要: Overfitting for Fun and Profit: Instance-Adaptive Data Compression
- arxiv url: http://arxiv.org/abs/2101.08687v1
- Date: Thu, 21 Jan 2021 15:58:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 13:27:33.188411
- Title: Overfitting for Fun and Profit: Instance-Adaptive Data Compression
- Title(参考訳): 楽しみと利益のためのオーバーフィット: インスタンス適応型データ圧縮
- Authors: Ties van Rozendaal, Iris A.M. Huijben, Taco S. Cohen
- Abstract要約: ニューラルデータ圧縮は、RD$パフォーマンスの点で古典的手法より優れていることが示されている。
本稿では,この概念を極端に取り入れ,全モデルを単一ビデオに適用し,潜在表現とともにモデル更新を送信する。
エンコーダのみの微調整に関して,フルモデル適応によりRD$性能が1dB向上することが実証された。
- 参考スコア(独自算出の注目度): 20.764189960709164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural data compression has been shown to outperform classical methods in
terms of $RD$ performance, with results still improving rapidly. At a high
level, neural compression is based on an autoencoder that tries to reconstruct
the input instance from a (quantized) latent representation, coupled with a
prior that is used to losslessly compress these latents. Due to limitations on
model capacity and imperfect optimization and generalization, such models will
suboptimally compress test data in general. However, one of the great strengths
of learned compression is that if the test-time data distribution is known and
relatively low-entropy (e.g. a camera watching a static scene, a dash cam in an
autonomous car, etc.), the model can easily be finetuned or adapted to this
distribution, leading to improved $RD$ performance. In this paper we take this
concept to the extreme, adapting the full model to a single video, and sending
model updates (quantized and compressed using a parameter-space prior) along
with the latent representation. Unlike previous work, we finetune not only the
encoder/latents but the entire model, and - during finetuning - take into
account both the effect of model quantization and the additional costs incurred
by sending the model updates. We evaluate an image compression model on
I-frames (sampled at 2 fps) from videos of the Xiph dataset, and demonstrate
that full-model adaptation improves $RD$ performance by ~1 dB, with respect to
encoder-only finetuning.
- Abstract(参考訳): ニューラルデータ圧縮は、RD$パフォーマンスの点で古典的手法よりも優れており、結果はまだ急速に改善されている。
高いレベルでは、ニューラルネットワークの圧縮は、(量子化された)潜在表現から入力インスタンスを再構築しようとするオートエンコーダと、これらの潜在オブジェクトを損失なく圧縮するために使用される前処理を組み合わせる。
モデルのキャパシティの制限と不完全な最適化と一般化のため、このようなモデルは一般にテストデータをサブオプティマイズ圧縮する。
しかし、学習圧縮の大きな強みの1つは、テスト時のデータ分布が知られ、エントロピーが比較的低い場合である(例)。
静的なシーンを見ているカメラ、自動運転車のダッシュカメラなど。
モデルを簡単に調整したり、このディストリビューションに適合させたりすることで、RD$のパフォーマンスが向上します。
本稿では、この概念を極端に取り入れ、全モデルを単一のビデオに適応させ、モデルの更新(パラメータ空間を事前に定量化し圧縮する)を潜在表現と共に送信する。
これまでの作業とは異なり、エンコーダ/ラタントだけでなく、モデル全体を微調整し、微調整中にモデル量子化の効果とモデル更新の送信によって生じる追加コストの両方を考慮に入れます。
xiphデータセットのビデオからiフレーム上の画像圧縮モデル(2fpsでサンプリング)を評価し、エンコーダのみの微調整に関して、フルモデル適応により$rd$性能が~1db向上することを示す。
関連論文リスト
- Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮
しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T10:36:43Z) - Correcting Diffusion-Based Perceptual Image Compression with Privileged End-to-End Decoder [49.01721042973929]
本稿では,特権付きエンド・ツー・エンド・エンド・デコーダ・モデルを用いた拡散型画像圧縮法を提案する。
従来の知覚圧縮法と比較して,歪みと知覚の両方において,本手法の優位性を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-07T10:57:54Z) - Extreme Video Compression with Pre-trained Diffusion Models [11.898317376595697]
本稿では,デコーダにおける拡散型生成モデルの予測力を活用した,極端な映像圧縮のための新しい手法を提案する。
ビデオ全体が順次エンコードされ、知覚品質の指標を考慮し、視覚的に快く再現される。
その結果、生成モデルを用いて映像データの時間的関係を活用できる可能性が示された。
論文 参考訳(メタデータ) (2024-02-14T04:23:05Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z) - CrAM: A Compression-Aware Minimizer [103.29159003723815]
本稿では、CrAMと呼ばれる新しい圧縮対応最小化器を提案し、最適化ステップを原則的に修正する。
CrAMは、標準のSGD/アダムベースベースラインよりも精度が高い密度のモデルを生成するが、重量計算では安定である。
CrAMは、転送学習のためにうまく機能するスパースモデルを生成することができ、GPUハードウェアでサポートされている半構造化の2:4プルーニングパターンでも機能する。
論文 参考訳(メタデータ) (2022-07-28T16:13:28Z) - Hybrid Spatial-Temporal Entropy Modelling for Neural Video Compression [25.96187914295921]
本稿では,空間的依存と時間的依存の両方を効率的に捉える強力なエントロピーモデルを提案する。
我々のエントロピーモデルでは,最大圧縮比を用いたH266(VTM)と比較して,UVGデータセットの18.2%の節約が可能である。
論文 参考訳(メタデータ) (2022-07-13T00:03:54Z) - Instance-Adaptive Video Compression: Improving Neural Codecs by Training
on the Test Set [14.89208053104896]
本稿では,インスタンス適応学習に基づくビデオ圧縮アルゴリズムを提案する。
送信される各ビデオシーケンスに対して、事前訓練された圧縮モデルを微調整する。
ネットワークサイズを70%削減しても,競争性能が向上することを示す。
論文 参考訳(メタデータ) (2021-11-19T16:25:34Z) - Substitutional Neural Image Compression [48.20906717052056]
置換型ニューラルイメージ圧縮(snic)は、あらゆるニューラルイメージ圧縮モデルを強化する一般的なアプローチである。
フレキシブルな歪みメトリックに向けて圧縮性能を高め、単一のモデルインスタンスを使用したビットレート制御を可能にする。
論文 参考訳(メタデータ) (2021-05-16T20:53:31Z) - Learning Scalable $\ell_\infty$-constrained Near-lossless Image
Compression via Joint Lossy Image and Residual Compression [118.89112502350177]
本稿では,$ell_infty$-constrained near-lossless image compressionを学習するための新しいフレームワークを提案する。
元の残差の学習確率モデルを定量化し、量子化残差の確率モデルを導出する。
論文 参考訳(メタデータ) (2021-03-31T11:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。