論文の概要: Learned Multi-Resolution Variable-Rate Image Compression with
Octave-based Residual Blocks
- arxiv url: http://arxiv.org/abs/2012.15463v1
- Date: Thu, 31 Dec 2020 06:26:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 17:19:38.170667
- Title: Learned Multi-Resolution Variable-Rate Image Compression with
Octave-based Residual Blocks
- Title(参考訳): オクターブ型残差ブロックを用いた多分解能可変レート画像圧縮
- Authors: Mohammad Akbari, Jie Liang, Jingning Han, Chengjie Tu
- Abstract要約: 一般化オクターブ畳み込み(GoConv)と一般化オクターブ畳み込み(GoTConv)を用いた新しい可変レート画像圧縮フレームワークを提案する。
単一モデルが異なるビットレートで動作し、複数レートの画像特徴を学習できるようにするため、新しい目的関数が導入される。
実験結果から,H.265/HEVCベースのBPGや最先端の学習に基づく可変レート法などの標準コーデックよりも高い性能を示した。
- 参考スコア(独自算出の注目度): 15.308823742699039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently deep learning-based image compression has shown the potential to
outperform traditional codecs. However, most existing methods train multiple
networks for multiple bit rates, which increase the implementation complexity.
In this paper, we propose a new variable-rate image compression framework,
which employs generalized octave convolutions (GoConv) and generalized octave
transposed-convolutions (GoTConv) with built-in generalized divisive
normalization (GDN) and inverse GDN (IGDN) layers. Novel GoConv- and
GoTConv-based residual blocks are also developed in the encoder and decoder
networks. Our scheme also uses a stochastic rounding-based scalar quantization.
To further improve the performance, we encode the residual between the input
and the reconstructed image from the decoder network as an enhancement layer.
To enable a single model to operate with different bit rates and to learn
multi-rate image features, a new objective function is introduced. Experimental
results show that the proposed framework trained with variable-rate objective
function outperforms the standard codecs such as H.265/HEVC-based BPG and
state-of-the-art learning-based variable-rate methods.
- Abstract(参考訳): 近年,深層学習に基づく画像圧縮は,従来のコーデックに勝る可能性を示している。
しかし、既存の手法の多くは複数ビットレートで複数のネットワークを訓練しており、実装の複雑さが増す。
本稿では,一般化オクターブ畳み込み(GoConv)と一般化オクターブ転置畳み込み(GoTConv)と,一般化ディビジョン正規化(GDN)と逆GDN(IGDN)を組み込んだ新しい可変レート画像圧縮フレームワークを提案する。
エンコーダネットワークやデコーダネットワークでも,新しいGoConvおよびGoTConvベースの残留ブロックが開発されている。
我々のスキームは、確率的丸めに基づくスカラー量子化も利用する。
さらに性能を向上させるため、デコーダネットワークからの入力と再構成画像の間の残差を強調層として符号化する。
単一モデルが異なるビットレートで動作し、複数レートの画像特徴を学習できるようにするため、新しい目的関数が導入される。
実験結果から,H.265/HEVCベースのBPGや最先端の学習に基づく可変レート法などの標準コーデックよりも高い性能を示した。
関連論文リスト
- Progressive Learning with Visual Prompt Tuning for Variable-Rate Image
Compression [60.689646881479064]
本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。
視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。
提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
論文 参考訳(メタデータ) (2023-11-23T08:29:32Z) - Multiscale Augmented Normalizing Flows for Image Compression [17.441496966834933]
本稿では,非可逆潜在変数モデルである拡張正規化フローに対して,階層的潜在空間を適応させる新しい概念を提案する。
私たちの最高のパフォーマンスモデルは、比較対象のシングルスケールモデルよりも7%以上、平均的なコスト削減を実現しました。
論文 参考訳(メタデータ) (2023-05-09T13:42:43Z) - Flexible Neural Image Compression via Code Editing [8.499248314440557]
ニューラル画像圧縮(NIC)は、レート歪み(R-D)性能において従来の画像コーデックよりも優れていた。
通常、R-D曲線の各点に専用エンコーダとデコーダのペアが必要であるため、実際の展開を妨げている。
本稿では,セミアモタイズされた推論と適応量子化に基づくNICの高フレキシブルな符号化手法であるCode Editingを提案する。
論文 参考訳(メタデータ) (2022-09-19T09:41:43Z) - The Devil Is in the Details: Window-based Attention for Image
Compression [58.1577742463617]
既存の学習画像圧縮モデルは畳み込みニューラルネットワーク(CNN)に基づいている。
本稿では,複数種類の注意機構が局所特徴学習に与える影響について検討し,より単純で効果的なウィンドウベースの局所的注意ブロックを提案する。
提案されたウィンドウベースのアテンションは非常に柔軟で、CNNとTransformerモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する可能性がある。
論文 参考訳(メタデータ) (2022-03-16T07:55:49Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG
Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。
実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文 参考訳(メタデータ) (2022-01-27T20:20:03Z) - Transformer-based Image Compression [18.976159633970177]
Transformer-based Image Compression (TIC) アプローチは、標準変分オートエンコーダ(VAE)アーキテクチャをメインおよびハイパーエンコーダデコーダのペアで再利用する。
TICは、Deep Convolutional Neural Network(CNN)ベースの学習画像符号化(lic)メソッドや、最近承認されたVersatile Video Coding(VVC)標準のハンドクラフトルールベースの内部プロファイルなど、最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-11-12T13:13:20Z) - Image Compression with Recurrent Neural Network and Generalized Divisive
Normalization [3.0204520109309843]
深層学習は研究コミュニティから大きな注目を集め、将来有望な画像再構成結果を生み出している。
近年の手法は、ネットワークの複雑さを大幅に増大させる、より深い複雑なネットワークの開発に焦点を当てている。
本稿では、畳み込み層を用いた解析とブロック合成と、可変レートエンコーダとデコーダ側における一般化分割正規化(GDN)の2つの有効な新しいブロックを開発する。
論文 参考訳(メタデータ) (2021-09-05T05:31:55Z) - Channel-Level Variable Quantization Network for Deep Image Compression [50.3174629451739]
チャネルレベルの可変量子化ネットワークを提案し、重要なチャネルに対してより多くの畳み込みを動的に割り当て、無視可能なチャネルに対して退避する。
提案手法は優れた性能を実現し,より優れた視覚的再構成を実現する。
論文 参考訳(メタデータ) (2020-07-15T07:20:39Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z) - Generalized Octave Convolutions for Learned Multi-Frequency Image
Compression [20.504561050200365]
本稿では,初めて学習されたマルチ周波数画像圧縮とエントロピー符号化手法を提案する。
これは最近開発されたオクターブの畳み込みに基づいて、潜水剤を高周波(高分解能)成分に分解する。
提案した一般化オクターブ畳み込みは、他のオートエンコーダベースのコンピュータビジョンタスクの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-02-24T01:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。