論文の概要: Dynamic Kernel-Based Adaptive Spatial Aggregation for Learned Image
Compression
- arxiv url: http://arxiv.org/abs/2308.08723v1
- Date: Thu, 17 Aug 2023 01:34:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 18:25:30.179643
- Title: Dynamic Kernel-Based Adaptive Spatial Aggregation for Learned Image
Compression
- Title(参考訳): 学習画像圧縮のための動的カーネルベース適応空間アグリゲーション
- Authors: Huairui Wang, Nianxiang Fu, Zhenzhong Chen and Shan Liu
- Abstract要約: 本稿では,空間アグリゲーション機能の拡張に焦点をあて,動的カーネルベースの変換符号化を提案する。
提案したアダプティブアグリゲーションはカーネルオフセットを生成し、コンテント条件付き範囲の有効な情報をキャプチャして変換を支援する。
実験により,本手法は,最先端の学習手法と比較して,3つのベンチマークにおいて高い速度歪み性能が得られることを示した。
- 参考スコア(独自算出の注目度): 63.56922682378755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learned image compression methods have shown superior rate-distortion
performance and remarkable potential compared to traditional compression
methods. Most existing learned approaches use stacked convolution or
window-based self-attention for transform coding, which aggregate spatial
information in a fixed range. In this paper, we focus on extending spatial
aggregation capability and propose a dynamic kernel-based transform coding. The
proposed adaptive aggregation generates kernel offsets to capture valid
information in the content-conditioned range to help transform. With the
adaptive aggregation strategy and the sharing weights mechanism, our method can
achieve promising transform capability with acceptable model complexity.
Besides, according to the recent progress of entropy model, we define a
generalized coarse-to-fine entropy model, considering the coarse global
context, the channel-wise, and the spatial context. Based on it, we introduce
dynamic kernel in hyper-prior to generate more expressive global context.
Furthermore, we propose an asymmetric spatial-channel entropy model according
to the investigation of the spatial characteristics of the grouped latents. The
asymmetric entropy model aims to reduce statistical redundancy while
maintaining coding efficiency. Experimental results demonstrate that our method
achieves superior rate-distortion performance on three benchmarks compared to
the state-of-the-art learning-based methods.
- Abstract(参考訳): 学習された画像圧縮法は従来の圧縮法に比べて高い速度歪み性能と顕著なポテンシャルを示した。
既存の学習手法のほとんどは、固定範囲の空間情報を集約する変換符号化にスタック畳み込みやウィンドウベースの自己照準を用いる。
本稿では,空間アグリゲーション機能の拡張に焦点をあて,動的カーネルベースのトランスフォーメーション符号化を提案する。
提案するアダプティブアグリゲーションは,コンテント条件範囲で有効な情報をキャプチャするためにカーネルオフセットを生成する。
適応アグリゲーション戦略と共有ウェイト機構により,提案手法はモデル複雑性を許容し,有望な変換能力を実現できる。
さらに,近年のエントロピーモデルの発展により,大域的コンテキスト,チャネルワイド,空間的コンテキストを考慮した一般化された粗大小エントロピーモデルを定義する。
そこで我々は,より表現力のあるグローバルコンテキストを生成するために,ハイパープライアに動的カーネルを導入する。
さらに,非対称な空間チャネルエントロピーモデルを提案する。
非対称エントロピーモデルは、符号効率を維持しながら統計冗長性を低減することを目的としている。
実験の結果,3つのベンチマークにおいて,最先端学習法と比較して高いレートゆらぎ性能が得られた。
関連論文リスト
- Uniform Transformation: Refining Latent Representation in Variational Autoencoders [7.4316292428754105]
本稿では,不規則な潜伏分布に対応するために,新しい適応型3段階一様変換(UT)モジュールを提案する。
この手法は不規則分布を潜在空間の均一分布に再構成することにより、潜在表現の絡み合いと解釈可能性を大幅に向上させる。
実験により,提案するUTモジュールの有効性を実証し,ベンチマークデータセット間の絡み合いの指標を改良した。
論文 参考訳(メタデータ) (2024-07-02T21:46:23Z) - Multi-Context Dual Hyper-Prior Neural Image Compression [10.349258638494137]
入力画像から局所的情報と大域的情報の両方を効率的にキャプチャするトランスフォーマーに基づく非線形変換を提案する。
また、2つの異なるハイパープライヤを組み込んだ新しいエントロピーモデルを導入し、潜在表現のチャネル間および空間的依存関係をモデル化する。
実験の結果,提案するフレームワークは,速度歪み性能の観点から,最先端の手法よりも優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-09-19T17:44:44Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Learning Modulated Transformation in GANs [69.95217723100413]
生成逆数ネットワーク(GAN)のジェネレータに、変調変換モジュール(Modulated transformation module, MTM)と呼ばれるプラグアンドプレイモジュールを装備する。
MTMは、可変位置で畳み込み操作を適用可能な潜在符号の制御下で空間オフセットを予測する。
挑戦的なTaiChiデータセット上での人為的な生成に向けて、StyleGAN3のFIDを21.36から13.60に改善し、変調幾何変換の学習の有効性を実証した。
論文 参考訳(メタデータ) (2023-08-29T17:51:22Z) - Information-Theoretic GAN Compression with Variational Energy-based
Model [36.77535324130402]
本稿では,情報理論に基づく知識蒸留手法を提案する。
提案アルゴリズムは,生成逆数ネットワークのモデル圧縮において,一貫した性能を実現する。
論文 参考訳(メタデータ) (2023-03-28T15:32:21Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Joint Self-Attention and Scale-Aggregation for Self-Calibrated Deraining
Network [13.628218953897946]
本稿では,JDNetとよばれる有効アルゴリズムを提案する。
自己校正畳み込みを用いたスケール・アグリゲーション・セルフアグリゲーション・モジュールを巧みに設計することにより,提案モデルはより優れたデコレーション結果が得られる。
論文 参考訳(メタデータ) (2020-08-06T17:04:34Z) - Learning Context-Based Non-local Entropy Modeling for Image Compression [140.64888994506313]
本稿では,文脈内でのグローバルな類似性を利用して,文脈モデリングのための非局所的操作を提案する。
エントロピーモデルはさらに、結合速度歪み最適化における速度損失として採用されている。
低歪みモデルのトレーニングに変換の幅が不可欠であることを考えると、最終的に変換のU-Netブロックを生成して、管理可能なメモリ消費と時間複雑性で幅を拡大する。
論文 参考訳(メタデータ) (2020-05-10T13:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。