論文の概要: Self-Organized Variational Autoencoders (Self-VAE) for Learned Image
Compression
- arxiv url: http://arxiv.org/abs/2105.12107v1
- Date: Tue, 25 May 2021 17:44:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-26 13:50:36.420965
- Title: Self-Organized Variational Autoencoders (Self-VAE) for Learned Image
Compression
- Title(参考訳): 学習画像圧縮のための自己組織化変分オートエンコーダ(Self-VAE)
- Authors: M. Ak{\i}n Y{\i}lmaz, Onur Kele\c{s}, Hilal G\"uven, A. Murat Tekalp,
Junaid Malik, Serkan K{\i}ranyaz
- Abstract要約: より強力な非線形性から恩恵を受けることができる,自己組織型変分オートエンコーダアーキテクチャを提案する。
実験結果から,提案したSelf-VAEは,速度歪み性能と知覚画像品質の両方の改善をもたらすことが示された。
- 参考スコア(独自算出の注目度): 12.539504557044653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In end-to-end optimized learned image compression, it is standard practice to
use a convolutional variational autoencoder with generalized divisive
normalization (GDN) to transform images into a latent space. Recently,
Operational Neural Networks (ONNs) that learn the best non-linearity from a set
of alternatives, and their self-organized variants, Self-ONNs, that approximate
any non-linearity via Taylor series have been proposed to address the
limitations of convolutional layers and a fixed nonlinear activation. In this
paper, we propose to replace the convolutional and GDN layers in the
variational autoencoder with self-organized operational layers, and propose a
novel self-organized variational autoencoder (Self-VAE) architecture that
benefits from stronger non-linearity. The experimental results demonstrate that
the proposed Self-VAE yields improvements in both rate-distortion performance
and perceptual image quality.
- Abstract(参考訳): エンドツーエンドに最適化された画像圧縮では、一般化された分割正規化(GDN)を備えた畳み込み変分オートエンコーダを用いて画像を潜時空間に変換するのが一般的である。
近年,一組の代替品から最良の非線形性を学ぶオペレーショナルニューラルネットワーク (ONNs) や,テイラー級数を介して任意の非線形性を近似する自己組織化変種Self-ONNsが,畳み込み層と固定された非線形活性化の限界に対処するために提案されている。
本稿では,変分オートエンコーダの畳み込み層とgdn層を自己組織型操作層に置き換え,より強固な非線形性を利用した新しい自己組織型変分オートエンコーダ(self-vae)アーキテクチャを提案する。
実験結果から,提案したSelf-VAEは,速度歪み性能と知覚画像品質の両方の改善をもたらすことが示された。
関連論文リスト
- AICT: An Adaptive Image Compression Transformer [18.05997169440533]
我々は、より単純で効果的なTranformerベースのチャネルワイド自動回帰事前モデルを提案し、絶対画像圧縮変換器(ICT)を実現する。
提案したICTは、潜在表現からグローバルとローカルの両方のコンテキストをキャプチャできる。
我々は、サンドイッチのConvNeXtベースのプリ/ポストプロセッサで学習可能なスケーリングモジュールを活用し、よりコンパクトな潜在表現を正確に抽出する。
論文 参考訳(メタデータ) (2023-07-12T11:32:02Z) - Joint Hierarchical Priors and Adaptive Spatial Resolution for Efficient
Neural Image Compression [11.25130799452367]
ニューラル画像圧縮(NIC)のための絶対画像圧縮変換器(ICT)を提案する。
ICTは、潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャし、量子化された潜在表現の分布をパラメータ化する。
我々のフレームワークは、多目的ビデオ符号化(VVC)参照符号化(VTM-18.0)とニューラルスウィンT-ChARMに対する符号化効率とデコーダ複雑性のトレードオフを大幅に改善する。
論文 参考訳(メタデータ) (2023-07-05T13:17:14Z) - Differentially Private Learning with Per-Sample Adaptive Clipping [8.401653565794353]
非単調適応重み関数に基づくDP-PSACアルゴリズムを提案する。
DP-PSACは,複数のメインストリームビジョンや言語タスクにおいて,最先端の手法よりも優れ,あるいは適合していることを示す。
論文 参考訳(メタデータ) (2022-12-01T07:26:49Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Rate Distortion Characteristic Modeling for Neural Image Compression [59.25700168404325]
エンドツーエンドの最適化機能は、ニューラルイメージ圧縮(NIC)の優れた損失圧縮性能を提供する。
異なるモデルは、R-D空間の異なる点に到達するために訓練される必要がある。
深層ネットワークと統計モデルを用いてNICのR-D挙動を記述するために,本質的な数学的関数の定式化に努めている。
論文 参考訳(メタデータ) (2021-06-24T12:23:05Z) - SIR: Self-supervised Image Rectification via Seeing the Same Scene from
Multiple Different Lenses [82.56853587380168]
本稿では、異なるレンズからの同一シーンの歪み画像の補正結果が同一であるべきという重要な知見に基づいて、新しい自己監督画像補正法を提案する。
我々は、歪みパラメータから修正画像を生成し、再歪み画像を生成するために、微分可能なワープモジュールを利用する。
本手法は,教師付きベースライン法や代表的最先端手法と同等あるいはそれ以上の性能を実現する。
論文 参考訳(メタデータ) (2020-11-30T08:23:25Z) - Self-Supervised Variational Auto-Encoders [10.482805367361818]
自己教師付き変分自動エンコーダ(self-supervised Variational Auto-Encoder)と呼ばれる新しい生成モデルについて述べる。
このモデルのクラスは、目的関数を単純化しながら、条件付きサンプリングと条件なしサンプリングの両方を実行することができる。
本稿では,3つのベンチマーク画像データ(Cifar10, Imagenette64, CelebA)に対する提案手法の性能について述べる。
論文 参考訳(メタデータ) (2020-10-05T13:42:28Z) - Operational vs Convolutional Neural Networks for Image Denoising [25.838282412957675]
畳み込みニューラルネットワーク(CNN)は近年,適応学習能力により画像デノナイズ技術として好まれている。
データ変換のコアに新たな非線形性を埋め込むための柔軟性を向上するヘテロジニアスネットワークモデルを提案する。
ONNとCNNの比較評価は、線形演算子に富んだONNが等価かつよく知られた深層構成のCNNに対して優れたノイズ発生性能を達成できるという決定的な証拠が得られる。
論文 参考訳(メタデータ) (2020-09-01T12:15:28Z) - A Flexible Framework for Designing Trainable Priors with Adaptive
Smoothing and Game Encoding [57.1077544780653]
我々は、前方通過を非滑らかな凸最適化問題として解釈できるニューラルネットワーク層の設計とトレーニングのための一般的なフレームワークを紹介する。
グラフのノードに代表されるローカルエージェントによって解決され、正規化関数を介して相互作用する凸ゲームに焦点を当てる。
このアプローチは、訓練可能なエンドツーエンドのディープモデル内で、古典的な画像の事前使用を可能にするため、画像の問題を解決するために魅力的である。
論文 参考訳(メタデータ) (2020-06-26T08:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。