論文の概要: MLIC: Multi-Reference Entropy Model for Learned Image Compression
- arxiv url: http://arxiv.org/abs/2211.07273v9
- Date: Tue, 16 Jan 2024 15:24:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 22:00:12.740556
- Title: MLIC: Multi-Reference Entropy Model for Learned Image Compression
- Title(参考訳): MLIC:学習画像圧縮のためのマルチ参照エントロピーモデル
- Authors: Wei Jiang, Jiayu Yang, Yongqi Zhai, Peirong Ning, Feng Gao, Ronggang
Wang
- Abstract要約: 本稿では,マルチ参照エントロピーモデル(MEM)と高度なバージョンであるMEM$+$を提案する。
MEM と MEM$+$ に基づいて,画像圧縮モデル MLIC と MLIC$+$ を提案する。
我々のMLICとMLIC$+$モデルは最先端のパフォーマンスを実現し、PSNRで測定されたVTM-17.0と比較して、KodakデータセットのBDレートを8.05%、11.39%削減した。
- 参考スコア(独自算出の注目度): 28.63380127598021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, learned image compression has achieved remarkable performance. The
entropy model, which estimates the distribution of the latent representation,
plays a crucial role in boosting rate-distortion performance. However, most
entropy models only capture correlations in one dimension, while the latent
representation contain channel-wise, local spatial, and global spatial
correlations. To tackle this issue, we propose the Multi-Reference Entropy
Model (MEM) and the advanced version, MEM$^+$. These models capture the
different types of correlations present in latent representation. Specifically,
We first divide the latent representation into slices. When decoding the
current slice, we use previously decoded slices as context and employ the
attention map of the previously decoded slice to predict global correlations in
the current slice. To capture local contexts, we introduce two enhanced
checkerboard context capturing techniques that avoids performance degradation.
Based on MEM and MEM$^+$, we propose image compression models MLIC and
MLIC$^+$. Extensive experimental evaluations demonstrate that our MLIC and
MLIC$^+$ models achieve state-of-the-art performance, reducing BD-rate by
$8.05\%$ and $11.39\%$ on the Kodak dataset compared to VTM-17.0 when measured
in PSNR. Our code is available at https://github.com/JiangWeibeta/MLIC.
- Abstract(参考訳): 近年,学習画像の圧縮性能は著しく向上している。
潜在表現の分布を推定するエントロピーモデルは、速度分散性能の向上に重要な役割を果たしている。
しかし、ほとんどのエントロピーモデルは1次元の相関のみを捉えるが、潜在表現はチャネル回り、局所空間、大域的な空間相関を含む。
この問題に対処するため、Multi-Reference Entropy Model (MEM) と高度なバージョンMEM$^+$を提案する。
これらのモデルは潜在表現に存在する異なる種類の相関を捉える。
具体的には、まず潜在表現をスライスに分割する。
現在のスライスを復号する際には、予め復号されたスライスをコンテキストとして使用し、それまでのスライスのアテンションマップを用いて、現在のスライスにおける大域的相関を予測する。
ローカルコンテキストをキャプチャするために,性能劣化を回避する2つの拡張チェッカーボードコンテキストキャプチャ技術を導入する。
MEM と MEM$^+$ に基づいて,画像圧縮モデル MLIC と MLIC$^+$ を提案する。
我々のMLICおよびMLIC$^+$モデルは、PSNRで測定されたVTM-17.0と比較して、Kodakデータセット上でのBDレートが8.05\%$と11.39\%$に減少する。
私たちのコードはhttps://github.com/jiangweibeta/mlicで利用可能です。
関連論文リスト
- Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。
同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。
本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:13:17Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - MLIC++: Linear Complexity Multi-Reference Entropy Modeling for Learned
Image Compression [30.71965784982577]
我々はMEM++を導入し、潜在表現に固有の様々な相関関係をキャプチャする。
MEM++は最先端のパフォーマンスを実現し、PSNRのVTM-17.0と比較して、KodakデータセットのBDレートを13.39%削減した。
MLIC++はリニアGPUメモリを解像度で表示し、高解像度の画像符号化に非常に適している。
論文 参考訳(メタデータ) (2023-07-28T09:11:37Z) - You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。
licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。
原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。
極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文 参考訳(メタデータ) (2023-06-27T15:36:22Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z) - Estimating the Resize Parameter in End-to-end Learned Image Compression [50.20567320015102]
本稿では,最近の画像圧縮モデルの速度歪みトレードオフをさらに改善する検索自由化フレームワークについて述べる。
提案手法により,Bjontegaard-Deltaレート(BD-rate)を最大10%向上させることができる。
論文 参考訳(メタデータ) (2022-04-26T01:35:02Z) - Lossless Compression with Latent Variable Models [4.289574109162585]
我々は「非対称数値系を持つビットバック」(bb-ans)と呼ぶ潜在変数モデルを用いる。
この方法は、エンコードおよびデコードステップをインターリーブし、データのバッチ圧縮時に最適なレートを達成する。
我々は,深層生成モデルを用いた圧縮の高速プロトタイピングのために開発したモジュール型ソフトウェアフレームワークである'craystack'について述べる。
論文 参考訳(メタデータ) (2021-04-21T14:03:05Z) - Overfitting for Fun and Profit: Instance-Adaptive Data Compression [20.764189960709164]
ニューラルデータ圧縮は、RD$パフォーマンスの点で古典的手法より優れていることが示されている。
本稿では,この概念を極端に取り入れ,全モデルを単一ビデオに適用し,潜在表現とともにモデル更新を送信する。
エンコーダのみの微調整に関して,フルモデル適応によりRD$性能が1dB向上することが実証された。
論文 参考訳(メタデータ) (2021-01-21T15:58:58Z) - Causal Contextual Prediction for Learned Image Compression [36.08393281509613]
本稿では,逐次的復号化プロセスを利用して潜在空間における因果文脈のエントロピー予測を行うために,分離エントロピー符号化の概念を提案する。
チャネル間の潜伏を分離し、チャネル間の関係を利用して高度に情報的コンテキストを生成する因果コンテキストモデルを提案する。
また、未知点の正確な予測のためのグローバル参照ポイントを見つけることができる因果的大域的予測モデルを提案する。
論文 参考訳(メタデータ) (2020-11-19T08:15:10Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Prototype Mixture Models for Few-shot Semantic Segmentation [50.866870384596446]
サポートやクエリ画像内のオブジェクトが外観やポーズで大きく異なる可能性があるため、ショットのセグメンテーションは難しい。
プロトタイプベースセマンティック表現を強制するために,多種多様な画像領域と複数のプロトタイプとの相関関係を持つプロトタイプ混合モデル(PMMs)を提案する。
PMMはMS-COCOの5ショットセグメンテーション性能を最大5.82%改善し、モデルサイズと推論速度の適度なコストに留まった。
論文 参考訳(メタデータ) (2020-08-10T04:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。