論文の概要: Towards image compression with perfect realism at ultra-low bitrates
- arxiv url: http://arxiv.org/abs/2310.10325v1
- Date: Mon, 16 Oct 2023 12:08:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 14:47:35.502482
- Title: Towards image compression with perfect realism at ultra-low bitrates
- Title(参考訳): 超低ビットレートでの完全リアリズムによる画像圧縮
- Authors: Marl\`ene Careil, Matthew J. Muckley, Jakob Verbeek, St\'ephane
Lathuili\`ere
- Abstract要約: MSEやLPIPSの歪みで訓練されたフィードフォワードデコーダの代わりに、反復拡散モデルでデコードすることを提案する。
当社のモデルPerCoを"知覚圧縮"としてダブし、最先端コーデックを0.1から0.003ビット/ピクセルのレートで比較します。
FID と KID で測定した現状の視覚的品質を再現する上で,本モデルが有効であることがわかった。
- 参考スコア(独自算出の注目度): 18.15496633927535
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image codecs are typically optimized to trade-off bitrate vs, distortion
metrics. At low bitrates, this leads to compression artefacts which are easily
perceptible, even when training with perceptual or adversarial losses. To
improve image quality, and to make it less dependent on the bitrate, we propose
to decode with iterative diffusion models, instead of feed-forward decoders
trained using MSE or LPIPS distortions used in most neural codecs. In addition
to conditioning the model on a vector-quantized image representation, we also
condition on a global textual image description to provide additional context.
We dub our model PerCo for 'perceptual compression', and compare it to
state-of-the-art codecs at rates from 0.1 down to 0.003 bits per pixel. The
latter rate is an order of magnitude smaller than those considered in most
prior work. At this bitrate a 512x768 Kodak image is encoded in less than 153
bytes. Despite this ultra-low bitrate, our approach maintains the ability to
reconstruct realistic images. We find that our model leads to reconstructions
with state-of-the-art visual quality as measured by FID and KID, and that the
visual quality is less dependent on the bitrate than previous methods.
- Abstract(参考訳): イメージコーデックは通常、ビットレート対歪みメトリクスのトレードオフに最適化される。
低ビットレートでは、知覚的または逆向きの損失を伴うトレーニングであっても、容易に知覚できる圧縮アーティファクトに繋がる。
画像品質の向上とビットレートへの依存の軽減を目的として,ほとんどのニューラルコーデックでMSEやLPIPSの歪みを訓練したフィードフォワードデコーダの代わりに,反復拡散モデルを用いてデコードすることを提案する。
ベクトル量子化画像表現にモデルを条件付けすることに加えて、グローバルなテキスト画像記述にも条件を定め、追加のコンテキストを提供する。
当社のモデルPerCoを"知覚圧縮(perceptual compression)"としてダブし、最先端コーデックを0.1から0.003ビット/ピクセルのレートで比較します。
後者の比率は、ほとんどの以前の作業で考慮されたものよりも桁違いに小さい。
このビットレートでは、512x768kodak画像は153バイト未満でエンコードされる。
超低ビットレートにもかかわらず、このアプローチは現実的なイメージを再構築する能力を維持している。
FIDとKIDによって測定された現状の視覚的品質が再現され,従来の方法よりも視覚的品質がビットレートに依存しないことがわかった。
関連論文リスト
- Enhancing the Rate-Distortion-Perception Flexibility of Learned Image
Codecs with Conditional Diffusion Decoders [7.485128109817576]
本研究では,デコーダとして使用する場合,条件拡散モデルが生成圧縮タスクにおいて有望な結果をもたらすことを示す。
本稿では,デコーダとして使用する場合,条件拡散モデルが生成圧縮タスクにおいて有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-05T11:48:35Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large
Multimodal Model [81.35367970135778]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - Extreme Video Compression with Pre-trained Diffusion Models [11.898317376595697]
本稿では,デコーダにおける拡散型生成モデルの予測力を活用した,極端な映像圧縮のための新しい手法を提案する。
ビデオ全体が順次エンコードされ、知覚品質の指標を考慮し、視覚的に快く再現される。
その結果、生成モデルを用いて映像データの時間的関係を活用できる可能性が示された。
論文 参考訳(メタデータ) (2024-02-14T04:23:05Z) - Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural
Image Compression [62.888755394395716]
本研究は、最適な視覚的忠実度のために設計された強化されたニューラル圧縮手法を提案する。
我々は,洗練されたセマンティック・アンサンブル・ロス,シャルボニエ・ロス,知覚的損失,スタイル・ロス,非バイナリ・ディバイザ・ロスを組み込んだモデルを構築した。
実験により,本手法は神経画像圧縮の統計的忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-01-25T08:11:27Z) - Extreme Image Compression using Fine-tuned VQGANs [43.43014096929809]
本稿ではベクトル量子化(VQ)に基づく生成モデルを画像圧縮領域に導入する。
VQGANモデルによって学習されたコードブックは、強い表現能力をもたらす。
提案したフレームワークは、知覚的品質指向のメトリクスで最先端のコーデックより優れている。
論文 参考訳(メタデータ) (2023-07-17T06:14:19Z) - You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。
licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。
原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。
極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文 参考訳(メタデータ) (2023-06-27T15:36:22Z) - Computationally-Efficient Neural Image Compression with Shallow Decoders [43.115831685920114]
本稿では,JPEGに類似した浅い,あるいは線形な復号変換を用いることで,復号化複雑性のギャップを解消する。
我々は、より強力なエンコーダネットワークと反復符号化を採用することにより、符号化と復号の間のしばしば非対称な予算を利用する。
論文 参考訳(メタデータ) (2023-04-13T03:38:56Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z) - How to Exploit the Transferability of Learned Image Compression to
Conventional Codecs [25.622863999901874]
本稿では,学習した画像の符号化をサロゲートとして利用して,画像の符号化を最適化する方法を示す。
提案手法は,MS-SSIM歪みをデコードオーバーヘッドを伴わずに20%以上の速度改善で補正するために,従来の画像を再構成することができる。
論文 参考訳(メタデータ) (2020-12-03T12:34:51Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。