論文の概要: Generating Images with Sparse Representations
- arxiv url: http://arxiv.org/abs/2103.03841v1
- Date: Fri, 5 Mar 2021 17:56:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-08 15:02:31.416526
- Title: Generating Images with Sparse Representations
- Title(参考訳): スパース表現による画像生成
- Authors: Charlie Nash, Jacob Menick, Sander Dieleman, Peter W. Battaglia
- Abstract要約: 画像の高次元化は、確率に基づく生成モデルのアーキテクチャとサンプリング効率の課題を示す。
JPEGのような一般的な画像圧縮法に触発された代替手法を提示し、画像を量子化された離散コサイン変換(DCT)ブロックに変換する。
本稿では,次の要素の条件分布を逐次的に予測するトランスフォーマに基づく自己回帰型アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 21.27273495926409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The high dimensionality of images presents architecture and
sampling-efficiency challenges for likelihood-based generative models. Previous
approaches such as VQ-VAE use deep autoencoders to obtain compact
representations, which are more practical as inputs for likelihood-based
models. We present an alternative approach, inspired by common image
compression methods like JPEG, and convert images to quantized discrete cosine
transform (DCT) blocks, which are represented sparsely as a sequence of DCT
channel, spatial location, and DCT coefficient triples. We propose a
Transformer-based autoregressive architecture, which is trained to sequentially
predict the conditional distribution of the next element in such sequences, and
which scales effectively to high resolution images. On a range of image
datasets, we demonstrate that our approach can generate high quality, diverse
images, with sample metric scores competitive with state of the art methods. We
additionally show that simple modifications to our method yield effective image
colorization and super-resolution models.
- Abstract(参考訳): 画像の高次元化は、確率に基づく生成モデルのアーキテクチャとサンプリング効率の課題を示す。
VQ-VAEのような従来のアプローチでは、深層オートエンコーダを使用してコンパクトな表現を得るが、これは確率ベースモデルの入力としてより実用的なものである。
本稿では、JPEGのような一般的な画像圧縮手法に触発され、画像をDCTチャネル、空間位置、DCT係数トリプルのシーケンスとして疎に表現された量子化された離散コサイン変換(DCT)ブロックに変換します。
本稿では,次の要素の条件分布を逐次的に予測し,高分解能画像に効果的にスケールするトランスフォーマベースの自己回帰型アーキテクチャを提案する。
さまざまな画像データセットにおいて、私たちのアプローチは、最先端の方法と競合するサンプルメトリックスコアで、高品質で多様な画像を生成することができることを実証します。
さらに,本手法の簡易な修正により,画像のカラー化と超解像モデルが得られることを示す。
関連論文リスト
- Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Image Inpainting via Tractable Steering of Diffusion Models [54.13818673257381]
本稿では,トラクタブル確率モデル(TPM)の制約後部を正確に,かつ効率的に計算する能力を活用することを提案する。
具体的には、確率回路(PC)と呼ばれる表現型TPMのクラスを採用する。
提案手法は, 画像の全体的な品質とセマンティックコヒーレンスを, 計算オーバーヘッドを10%加えるだけで一貫的に改善できることを示す。
論文 参考訳(メタデータ) (2023-11-28T21:14:02Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - AICT: An Adaptive Image Compression Transformer [18.05997169440533]
我々は、より単純で効果的なTranformerベースのチャネルワイド自動回帰事前モデルを提案し、絶対画像圧縮変換器(ICT)を実現する。
提案したICTは、潜在表現からグローバルとローカルの両方のコンテキストをキャプチャできる。
我々は、サンドイッチのConvNeXtベースのプリ/ポストプロセッサで学習可能なスケーリングモジュールを活用し、よりコンパクトな潜在表現を正確に抽出する。
論文 参考訳(メタデータ) (2023-07-12T11:32:02Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - High-Perceptual Quality JPEG Decoding via Posterior Sampling [13.238373528922194]
JPEGアーチファクト修正のための異なるパラダイムを提案する。
我々は、圧縮された入力と整合しながら、シャープで詳細で視覚的に再構成された画像を得ることを目指している。
我々のソリューションは、完全な整合性のある入力に対して、多種多様な可塑性かつ高速な再構成を提供する。
論文 参考訳(メタデータ) (2022-11-21T19:47:59Z) - MoVQ: Modulating Quantized Vectors for High-Fidelity Image Generation [41.029441562130984]
2段階ベクトル量子化(VQ)生成モデルは、高忠実度と高解像度の画像の合成を可能にする。
提案した変調VQGANは、再構成画像の品質を大幅に向上し、高忠実度画像生成を可能にする。
論文 参考訳(メタデータ) (2022-09-19T13:26:51Z) - Variable-Rate Deep Image Compression through Spatially-Adaptive Feature
Transform [58.60004238261117]
空間特徴変換(SFT arXiv:1804.02815)に基づく多目的深部画像圧縮ネットワークを提案する。
本モデルは,任意の画素単位の品質マップによって制御される単一モデルを用いて,幅広い圧縮速度をカバーしている。
提案するフレームワークにより,様々なタスクに対してタスク対応の画像圧縮を行うことができる。
論文 参考訳(メタデータ) (2021-08-21T17:30:06Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z) - A Multiparametric Class of Low-complexity Transforms for Image and Video
Coding [0.0]
本稿では,Bouguezel,Ahmed,Swamyの一連の論文に基づいて,低複素度8点DCT近似の新たなクラスを導入する。
最適DCT近似は、符号化効率と画像品質の指標の点で魅力的な結果を示すことを示す。
論文 参考訳(メタデータ) (2020-06-19T21:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。