論文の概要: Closed-Loop Transcription via Convolutional Sparse Coding
- arxiv url: http://arxiv.org/abs/2302.09347v1
- Date: Sat, 18 Feb 2023 14:40:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 19:04:39.113612
- Title: Closed-Loop Transcription via Convolutional Sparse Coding
- Title(参考訳): 畳み込みスパース符号化による閉ループ転写
- Authors: Xili Dai, Ke Chen, Shengbang Tong, Jingyuan Zhang, Xingjian Gao,
Mingyang Li, Druv Pai, Yuexiang Zhai, XIaojun Yuan, Heung-Yeung Shum, Lionel
M. Ni, Yi Ma
- Abstract要約: オートエンコーダはしばしばエンコーダやデコーダとして汎用的なディープネットワークを使用するが、解釈が難しい。
本研究では,多段畳み込みスパース符号化(CSC)から画像分布が生成されることを明示的に仮定する。
提案手法は, より構造化され, 解釈可能な表現, より安定した収束, 大規模データセットのスケーラビリティなど, 様々なメリットを享受する。
- 参考スコア(独自算出の注目度): 29.75613581643052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoencoding has achieved great empirical success as a framework for learning
generative models for natural images. Autoencoders often use generic deep
networks as the encoder or decoder, which are difficult to interpret, and the
learned representations lack clear structure. In this work, we make the
explicit assumption that the image distribution is generated from a multi-stage
sparse deconvolution. The corresponding inverse map, which we use as an
encoder, is a multi-stage convolution sparse coding (CSC), with each stage
obtained from unrolling an optimization algorithm for solving the corresponding
(convexified) sparse coding program. To avoid computational difficulties in
minimizing distributional distance between the real and generated images, we
utilize the recent closed-loop transcription (CTRL) framework that optimizes
the rate reduction of the learned sparse representations. Conceptually, our
method has high-level connections to score-matching methods such as diffusion
models. Empirically, our framework demonstrates competitive performance on
large-scale datasets, such as ImageNet-1K, compared to existing autoencoding
and generative methods under fair conditions. Even with simpler networks and
fewer computational resources, our method demonstrates high visual quality in
regenerated images. More surprisingly, the learned autoencoder performs well on
unseen datasets. Our method enjoys several side benefits, including more
structured and interpretable representations, more stable convergence, and
scalability to large datasets. Our method is arguably the first to demonstrate
that a concatenation of multiple convolution sparse coding/decoding layers
leads to an interpretable and effective autoencoder for modeling the
distribution of large-scale natural image datasets.
- Abstract(参考訳): オートエンコーディングは、自然画像の生成モデルを学ぶためのフレームワークとして、経験的な成功を収めてきた。
オートエンコーダはしばしばエンコーダやデコーダとして汎用的なディープネットワークを使用し、解釈が困難であり、学習された表現には明確な構造がない。
本研究では,多段階のスパースデコンボリューションから画像分布が生成されることを明確に仮定する。
エンコーダとして使用する対応する逆写像は多段畳み込みスパース符号化(CSC)であり、対応する(凸化された)スパース符号化プログラムを解くための最適化アルゴリズムの展開から得られる。
実画像と生成画像の分布距離を最小化する計算の難しさを避けるため,学習したスパース表現のレート低減を最適化する最近のクローズドループ転写(ctrl)フレームワークを利用する。
提案手法は,拡散モデルなどのスコアマッチング手法と高レベルな接続を持つ。
実験的な手法として,ImageNet-1Kのような大規模データセット上での競合性能を,公正な条件下での既存のオートエンコーディングや生成手法と比較して実証した。
より単純なネットワークと少ない計算資源を用いても,再生画像の視覚的品質が向上することを示す。
さらに驚くことに、学習されたautoencoderは、未発見のデータセットでうまく動作します。
提案手法は, より構造化され, 解釈可能な表現, より安定した収束, 大規模データセットのスケーラビリティなど, 様々なメリットを享受する。
本手法は,大規模自然画像データセットの分布をモデル化するための解釈可能かつ効果的なオートエンコーダとして,多重畳み込み・スパース符号化層の結合が導かれることを示す最初の方法である。
関連論文リスト
- Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder [29.924160271522354]
超解像度(SR)と画像生成はコンピュータビジョンにおいて重要なタスクであり、現実世界のアプリケーションで広く採用されている。
しかし、既存のほとんどの手法は、固定スケールの倍率でのみ画像を生成し、過度なスムーシングやアーティファクトに悩まされている。
最も関連する研究は、インプリシット神経表現(INR)をデノナイズ拡散モデルに適用し、連続分解能で多種多様で高品質なSR結果を得た。
任意のスケールで入力画像の超解像やランダムノイズから生成できる新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-15T12:45:40Z) - SC-VAE: Sparse Coding-based Variational Autoencoder with Learned ISTA [0.6770292596301478]
そこで本研究では,ISTA (SC-VAE) を用いたスパース符号化に基づくVAEを新たに導入し,スパース符号化を可変オートエンコーダフレームワークに統合する。
2つの画像データセットに対する実験により、我々のモデルは、最先端の手法と比較して、画像再構成結果の改善を実現していることが示された。
論文 参考訳(メタデータ) (2023-03-29T13:18:33Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z) - Asymmetric Learned Image Compression with Multi-Scale Residual Block,
Importance Map, and Post-Quantization Filtering [15.056672221375104]
ディープラーニングに基づく画像圧縮は、最新のH.266/VVCよりも高いレート歪み(R-D)性能を実現している。
多くの先導的な学習スキームは、パフォーマンスと複雑さの間の良いトレードオフを維持することができません。
そこで本研究では,R-D の性能を技術状況よりも低い複雑さで実現した,効率的かつ効果的な画像符号化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T09:34:29Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - High-Quality Pluralistic Image Completion via Code Shared VQGAN [51.7805154545948]
高速な推論速度で高品質と多様性を両立させることができる多元画像補完のための新しい枠組みを提案する。
我々のフレームワークは、セマンティックにリッチな離散的なコードを効率的かつ堅牢に学習することができ、画像再構成の品質が大幅に向上する。
論文 参考訳(メタデータ) (2022-04-05T01:47:35Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - SDWNet: A Straight Dilated Network with Wavelet Transformation for Image
Deblurring [23.86692375792203]
画像劣化は、ぼやけた画像から鋭い画像を復元することを目的としたコンピュータビジョンの問題である。
我々のモデルは拡張畳み込みを用いて空間分解能の高い大きな受容場を得ることができる。
本稿では,ウェーブレット変換を用いた新しいモジュールを提案する。
論文 参考訳(メタデータ) (2021-10-12T07:58:10Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。