論文の概要: 3DM-WeConvene: Learned Image Compression with 3D Multi-Level Wavelet-Domain Convolution and Entropy Model
- arxiv url: http://arxiv.org/abs/2504.04658v1
- Date: Mon, 07 Apr 2025 01:11:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:09:48.936301
- Title: 3DM-WeConvene: Learned Image Compression with 3D Multi-Level Wavelet-Domain Convolution and Entropy Model
- Title(参考訳): 3DM-WeConvene:3次元マルチレベルウェーブレット領域の畳み込みとエントロピーモデルによる画像圧縮
- Authors: Haisheng Fu, Jie Liang, Feng Liang, Zhenman Fang, Guohe Zhang, Jingning Han,
- Abstract要約: 本稿では,低複雑さな3次元離散ウェーブレット変換(DWT)を畳み込み層とエントロピー符号化に統合する新しいフレームワークを提案する。
我々のフレームワークは、R-D性能と計算複雑性において、最先端のCNNベースのlicメソッドよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 14.592432109760098
- License:
- Abstract: Learned image compression (LIC) has recently made significant progress, surpassing traditional methods. However, most LIC approaches operate mainly in the spatial domain and lack mechanisms for reducing frequency-domain correlations. To address this, we propose a novel framework that integrates low-complexity 3D multi-level Discrete Wavelet Transform (DWT) into convolutional layers and entropy coding, reducing both spatial and channel correlations to improve frequency selectivity and rate-distortion (R-D) performance. Our proposed 3D multi-level wavelet-domain convolution (3DM-WeConv) layer first applies 3D multi-level DWT (e.g., 5/3 and 9/7 wavelets from JPEG 2000) to transform data into the wavelet domain. Then, different-sized convolutions are applied to different frequency subbands, followed by inverse 3D DWT to restore the spatial domain. The 3DM-WeConv layer can be flexibly used within existing CNN-based LIC models. We also introduce a 3D wavelet-domain channel-wise autoregressive entropy model (3DWeChARM), which performs slice-based entropy coding in the 3D DWT domain. Low-frequency (LF) slices are encoded first to provide priors for high-frequency (HF) slices. A two-step training strategy is adopted: first balancing LF and HF rates, then fine-tuning with separate weights. Extensive experiments demonstrate that our framework consistently outperforms state-of-the-art CNN-based LIC methods in R-D performance and computational complexity, with larger gains for high-resolution images. On the Kodak, Tecnick 100, and CLIC test sets, our method achieves BD-Rate reductions of -12.24%, -15.51%, and -12.97%, respectively, compared to H.266/VVC.
- Abstract(参考訳): 学習された画像圧縮(lic)は、最近、従来の手法を超越して大きな進歩を遂げた。
しかし、ほとんどのlicアプローチは、主に空間領域で動作し、周波数領域の相関を減少させるメカニズムが欠如している。
そこで本研究では,低複雑さな3次元離散ウェーブレット変換(DWT)を畳み込み層とエントロピー符号化に統合し,空間相関とチャネル相関を低減し,周波数選択率とレート歪み(R-D)性能を向上させる新しいフレームワークを提案する。
提案する3次元マルチレベルウェーブレットドメイン畳み込み(3DM-WeConv)は,まず3次元マルチレベルDWT(JPEG 2000の5/3および9/7ウェーブレット)を用いてデータをウェーブレットドメインに変換する。
そして、異なる周波数サブバンドに対して異なる大きさの畳み込みを施し、次に逆3次元DWTで空間領域を復元する。
3DM-WeConvレイヤは既存のCNNベースのlicモデルで柔軟に使用できる。
また、3次元DWTドメインでスライスベースのエントロピー符号化を行う3Dウェーブレット・チャネルワイズ自己回帰エントロピーモデル(3DWeChARM)を導入する。
低周波スライス(LFスライス)は、最初に符号化され、高周波スライス(HFスライス)に先行する。
2段階のトレーニング戦略が採用され、まずLFとHFのバランスをとる。
大規模な実験により、我々のフレームワークは、R-D性能と計算複雑性において、最先端のCNNベースのlicメソッドを一貫して上回り、高解像度画像のゲインが大きいことが実証された。
The Kodak, Tecnick 100, and CLIC test set, we achieves BD-Rate reductions -12.24%, -15.51%, and -12.97%, compared than H.266/VVC。
関連論文リスト
- 3D Equivariant Pose Regression via Direct Wigner-D Harmonics Prediction [50.07071392673984]
既存の方法は、角度や四元数を用いて空間領域でパラメータ化された3次元回転を学習する。
本稿では,3次元回転回帰のためのWigner-D係数を直接予測する周波数領域アプローチを提案する。
提案手法は, ModelNet10-SO(3) や PASCAL3D+ などのベンチマーク上での最先端結果を実現する。
論文 参考訳(メタデータ) (2024-11-01T12:50:38Z) - MDNF: Multi-Diffusion-Nets for Neural Fields on Meshes [5.284425534494986]
本稿では,空間領域と周波数領域にまたがる多分解能を持つトライアングルメッシュ上でのニューラルフィールドを表現する新しいフレームワークを提案する。
ニューラルフーリエフィルタバンク(NFFB)にインスパイアされた我々のアーキテクチャは、より微細な分解能レベルと高い周波数帯域を関連付けることによって周波数領域と周波数領域を分解する。
本稿では, 合成RGB関数, UVテクスチャ座標, 正規化など, 多様なニューラルネットワークへの応用を通じて, 本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-09-04T19:08:13Z) - HPC: Hierarchical Progressive Coding Framework for Volumetric Video [39.403294185116]
ニューラルレージアンスフィールド(NeRF)に基づくボリュームビデオは、様々な3Dアプリケーションに対して大きな可能性を秘めている。
現在のNeRF圧縮は、ビデオ品質を調整できる柔軟性に欠けており、様々なネットワークやデバイス能力のための単一のモデル内である。
単一モデルを用いて可変性を実現する新しい階層型プログレッシブビデオ符号化フレームワークであるHPCを提案する。
論文 参考訳(メタデータ) (2024-07-12T06:34:24Z) - Frequency-Aware Transformer for Learned Image Compression [64.28698450919647]
学習画像圧縮(lic)のためのマルチスケール指向性アナリシスを初めて実現した周波数認識変換器(FAT)ブロックを提案する。
FATブロックは、自然画像のマルチスケールおよび指向性周波数成分をキャプチャするための周波数分解ウィンドウアテンション(FDWA)モジュールを含む。
また、周波数変調フィードフォワードネットワーク(FMFFN)を導入し、異なる周波数成分を適応的に変調し、周波数歪み性能を向上させる。
論文 参考訳(メタデータ) (2023-10-25T05:59:25Z) - Spatial-Frequency U-Net for Denoising Diffusion Probabilistic Models [89.76587063609806]
画素空間の代わりにウェーブレット空間における拡散確率モデル(DDPM)を視覚合成のために検討した。
ウェーブレット信号を明示的にモデル化することで、我々のモデルは複数のデータセット上でより高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-07-27T06:53:16Z) - Image Reconstruction for Accelerated MR Scan with Faster Fourier
Convolutional Neural Networks [87.87578529398019]
部分走査は、磁気共鳴イメージング(MRI)データ取得を2次元および3次元の両方で加速する一般的な手法である。
本稿では,Faster Fourier Convolution (FasterFC) と呼ばれる新しい畳み込み演算子を提案する。
2次元加速MRI法であるFasterFC-End-to-End-VarNetは、FasterFCを用いて感度マップと再構成品質を改善する。
k空間領域再構成を誘導する単一グループアルゴリズムを用いたFasterFC-based Single-to-group Network (FAS-Net) と呼ばれる3次元加速MRI法
論文 参考訳(メタデータ) (2023-06-05T13:53:57Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - aiWave: Volumetric Image Compression with 3-D Trained Affine
Wavelet-like Transform [43.984890290691695]
最も一般的なボリューム画像圧縮法はJP3Dのようなウェーブレット変換に基づいている。
本稿では,信号依存型および非分離型変換を実現するために,まず3次元トレーニングウェーブレット様変換を設計する。
次に、アフィンウェーブレットベースを導入し、ボリューム画像の異なる領域における様々な局所的相関をキャプチャする。
論文 参考訳(メタデータ) (2022-03-11T10:02:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。