論文の概要: Towards image compression with perfect realism at ultra-low bitrates
- arxiv url: http://arxiv.org/abs/2310.10325v1
- Date: Mon, 16 Oct 2023 12:08:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 14:47:35.502482
- Title: Towards image compression with perfect realism at ultra-low bitrates
- Title(参考訳): 超低ビットレートでの完全リアリズムによる画像圧縮
- Authors: Marl\`ene Careil, Matthew J. Muckley, Jakob Verbeek, St\'ephane
Lathuili\`ere
- Abstract要約: MSEやLPIPSの歪みで訓練されたフィードフォワードデコーダの代わりに、反復拡散モデルでデコードすることを提案する。
当社のモデルPerCoを"知覚圧縮"としてダブし、最先端コーデックを0.1から0.003ビット/ピクセルのレートで比較します。
FID と KID で測定した現状の視覚的品質を再現する上で,本モデルが有効であることがわかった。
- 参考スコア(独自算出の注目度): 18.15496633927535
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image codecs are typically optimized to trade-off bitrate vs, distortion
metrics. At low bitrates, this leads to compression artefacts which are easily
perceptible, even when training with perceptual or adversarial losses. To
improve image quality, and to make it less dependent on the bitrate, we propose
to decode with iterative diffusion models, instead of feed-forward decoders
trained using MSE or LPIPS distortions used in most neural codecs. In addition
to conditioning the model on a vector-quantized image representation, we also
condition on a global textual image description to provide additional context.
We dub our model PerCo for 'perceptual compression', and compare it to
state-of-the-art codecs at rates from 0.1 down to 0.003 bits per pixel. The
latter rate is an order of magnitude smaller than those considered in most
prior work. At this bitrate a 512x768 Kodak image is encoded in less than 153
bytes. Despite this ultra-low bitrate, our approach maintains the ability to
reconstruct realistic images. We find that our model leads to reconstructions
with state-of-the-art visual quality as measured by FID and KID, and that the
visual quality is less dependent on the bitrate than previous methods.
- Abstract(参考訳): イメージコーデックは通常、ビットレート対歪みメトリクスのトレードオフに最適化される。
低ビットレートでは、知覚的または逆向きの損失を伴うトレーニングであっても、容易に知覚できる圧縮アーティファクトに繋がる。
画像品質の向上とビットレートへの依存の軽減を目的として,ほとんどのニューラルコーデックでMSEやLPIPSの歪みを訓練したフィードフォワードデコーダの代わりに,反復拡散モデルを用いてデコードすることを提案する。
ベクトル量子化画像表現にモデルを条件付けすることに加えて、グローバルなテキスト画像記述にも条件を定め、追加のコンテキストを提供する。
当社のモデルPerCoを"知覚圧縮(perceptual compression)"としてダブし、最先端コーデックを0.1から0.003ビット/ピクセルのレートで比較します。
後者の比率は、ほとんどの以前の作業で考慮されたものよりも桁違いに小さい。
このビットレートでは、512x768kodak画像は153バイト未満でエンコードされる。
超低ビットレートにもかかわらず、このアプローチは現実的なイメージを再構築する能力を維持している。
FIDとKIDによって測定された現状の視覚的品質が再現され,従来の方法よりも視覚的品質がビットレートに依存しないことがわかった。
関連論文リスト
- Map-Assisted Remote-Sensing Image Compression at Extremely Low Bitrates [47.47031054057152]
生成モデルはRS画像を極低ビットレートストリームに圧縮するために研究されている。
これらの生成モデルは、非常に低ビットレート画像圧縮の極めて不適切な性質のため、視覚的に可視な画像の再構成に苦慮している。
本研究では,高現実性再構築を実現するために,自然画像に先行した事前学習拡散モデルを用いた画像圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-03T14:29:54Z) - Enhancing the Rate-Distortion-Perception Flexibility of Learned Image
Codecs with Conditional Diffusion Decoders [7.485128109817576]
本研究では,デコーダとして使用する場合,条件拡散モデルが生成圧縮タスクにおいて有望な結果をもたらすことを示す。
本稿では,デコーダとして使用する場合,条件拡散モデルが生成圧縮タスクにおいて有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-05T11:48:35Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - Extreme Image Compression using Fine-tuned VQGANs [43.43014096929809]
本稿ではベクトル量子化(VQ)に基づく生成モデルを画像圧縮領域に導入する。
VQGANモデルによって学習されたコードブックは、強い表現能力をもたらす。
提案したフレームワークは、知覚的品質指向のメトリクスで最先端のコーデックより優れている。
論文 参考訳(メタデータ) (2023-07-17T06:14:19Z) - You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。
licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。
原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。
極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文 参考訳(メタデータ) (2023-06-27T15:36:22Z) - Are Visual Recognition Models Robust to Image Compression? [23.280147529096908]
画像圧縮が視覚認知タスクに与える影響を解析する。
我々は、0.1ビットから2ビット/ピクセル(bpp)までの幅広い圧縮レベルについて検討する。
これら3つのタスクすべてにおいて,強い圧縮を使用する場合,認識能力に大きな影響があることが判明した。
論文 参考訳(メタデータ) (2023-04-10T11:30:11Z) - PILC: Practical Image Lossless Compression with an End-to-end GPU
Oriented Neural Framework [88.18310777246735]
本稿では,1台のNVIDIA Tesla V100 GPUを用いて,圧縮と圧縮の両面で200MB/sを実現するエンドツーエンド画像圧縮フレームワークを提案する。
実験により、我々のフレームワークは、複数のデータセットで30%のマージンで、PNGよりも圧縮が優れていることが示された。
論文 参考訳(メタデータ) (2022-06-10T03:00:10Z) - Learning Scalable $\ell_\infty$-constrained Near-lossless Image
Compression via Joint Lossy Image and Residual Compression [118.89112502350177]
本稿では,$ell_infty$-constrained near-lossless image compressionを学習するための新しいフレームワークを提案する。
元の残差の学習確率モデルを定量化し、量子化残差の確率モデルを導出する。
論文 参考訳(メタデータ) (2021-03-31T11:53:36Z) - How to Exploit the Transferability of Learned Image Compression to
Conventional Codecs [25.622863999901874]
本稿では,学習した画像の符号化をサロゲートとして利用して,画像の符号化を最適化する方法を示す。
提案手法は,MS-SSIM歪みをデコードオーバーヘッドを伴わずに20%以上の速度改善で補正するために,従来の画像を再構成することができる。
論文 参考訳(メタデータ) (2020-12-03T12:34:51Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。