論文の概要: Conditional Latent Coding with Learnable Synthesized Reference for Deep Image Compression
- arxiv url: http://arxiv.org/abs/2502.09971v1
- Date: Fri, 14 Feb 2025 07:56:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:47:31.875322
- Title: Conditional Latent Coding with Learnable Synthesized Reference for Deep Image Compression
- Title(参考訳): 深部画像圧縮のための学習可能な合成基準付き条件付き潜時符号化
- Authors: Siqi Wu, Yinda Chen, Dong Liu, Zhihai He,
- Abstract要約: 本稿では,外部辞書から動的参照を合成して,潜時領域における入力画像の条件付き符号化を行う方法について検討する。
各入力画像に対して、辞書から関連する特徴を選択して合成することで、条件付き潜伏語を合成することを学ぶ。
次に、合成潜水剤を用いて符号化プロセスを導出し、入力画像と参照辞書の相関をより効率的に利用できるようにする。
- 参考スコア(独自算出の注目度): 22.972154311937768
- License:
- Abstract: In this paper, we study how to synthesize a dynamic reference from an external dictionary to perform conditional coding of the input image in the latent domain and how to learn the conditional latent synthesis and coding modules in an end-to-end manner. Our approach begins by constructing a universal image feature dictionary using a multi-stage approach involving modified spatial pyramid pooling, dimension reduction, and multi-scale feature clustering. For each input image, we learn to synthesize a conditioning latent by selecting and synthesizing relevant features from the dictionary, which significantly enhances the model's capability in capturing and exploring image source correlation. This conditional latent synthesis involves a correlation-based feature matching and alignment strategy, comprising a Conditional Latent Matching (CLM) module and a Conditional Latent Synthesis (CLS) module. The synthesized latent is then used to guide the encoding process, allowing for more efficient compression by exploiting the correlation between the input image and the reference dictionary. According to our theoretical analysis, the proposed conditional latent coding (CLC) method is robust to perturbations in the external dictionary samples and the selected conditioning latent, with an error bound that scales logarithmically with the dictionary size, ensuring stability even with large and diverse dictionaries. Experimental results on benchmark datasets show that our new method improves the coding performance by a large margin (up to 1.2 dB) with a very small overhead of approximately 0.5\% bits per pixel. Our code is publicly available at https://github.com/ydchen0806/CLC.
- Abstract(参考訳): 本稿では,外部辞書から動的参照を合成して潜時領域における入力画像の条件付き符号化を行う方法と,条件付き潜時合成および符号化モジュールをエンドツーエンドに学習する方法について検討する。
提案手法は,空間的ピラミッドプール,次元縮小,マルチスケール特徴クラスタリングを含む多段階アプローチを用いて,ユニバーサル画像特徴辞書の構築から始まる。
各入力画像に対して,関係する特徴を辞書から選択・合成することで条件付き潜伏語を合成することを学び,画像ソース相関を捕捉・探索するモデルの能力を大幅に向上させる。
この条件付きラテント合成は、相関に基づく特徴マッチングとアライメント戦略を含み、条件付きラテントマッチング(CLM)モジュールと条件付きラテント合成(CLS)モジュールからなる。
次に、合成潜水剤を用いて符号化プロセスを導出し、入力画像と参照辞書の相関を利用してより効率的な圧縮を可能にする。
理論的解析により,提案手法は外部辞書サンプルと選択された条件付潜時に対して頑健であり,辞書サイズと対数的にスケールし,大規模かつ多種多様な辞書でも安定性を確保できる誤差境界を持つ。
ベンチマーク・データセットを用いた実験結果から,新しい手法は1ピクセルあたり0.5倍のオーバーヘッドで大きなマージン(最大1.2dB)で符号化性能を向上することが示された。
私たちのコードはhttps://github.com/ydchen0806/CLCで公開されています。
関連論文リスト
- Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Hierarchical Sketch Induction for Paraphrase Generation [79.87892048285819]
本稿では、高密度符号化の分解を学習するHRQ-VAE(Hierarchical Refinement Quantized Variational Autoencoders)を紹介する。
HRQ-VAEを用いて、入力文の構文形式を階層化の経路としてエンコードすることで、テスト時の構文スケッチをより容易に予測できる。
論文 参考訳(メタデータ) (2022-03-07T15:28:36Z) - Online Meta Adaptation for Variable-Rate Learned Image Compression [40.8361915315201]
この研究は、ディープニューラルネットワークに基づくエンドツーエンドの学習画像圧縮(lic)の2つの大きな問題に対処する。
我々は,条件付き変分自動エンコーダフレームワークにおけるメタラーニングとオンラインラーニングのアイデアを組み合わせた,licのオンラインメタラーニング(OML)設定を導入する。
論文 参考訳(メタデータ) (2021-11-16T06:46:23Z) - Diverse Semantic Image Synthesis via Probability Distribution Modeling [103.88931623488088]
新規な多様な意味的画像合成フレームワークを提案する。
本手法は最先端手法と比較して優れた多様性と同等の品質を実現することができる。
論文 参考訳(メタデータ) (2021-03-11T18:59:25Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。