論文の概要: Attentive VQ-VAE
- arxiv url: http://arxiv.org/abs/2309.11641v1
- Date: Wed, 20 Sep 2023 21:11:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 17:43:09.900265
- Title: Attentive VQ-VAE
- Title(参考訳): 注意VQ-VAE
- Authors: Mariano Rivera and Angello Hoyos
- Abstract要約: 本稿では,Attentive Residual (AREN)とResidual Pixel Attention Layerを統合することで,VQVAEモデルの能力を高める新しいアプローチを提案する。
ARENエンコーダは複数のレベルで効果的に動作し、多様なアーキテクチャの複雑さを収容するように設計されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present a novel approach to enhance the capabilities of VQVAE models
through the integration of an Attentive Residual Encoder (AREN) and a Residual
Pixel Attention layer. The objective of our research is to improve the
performance of VQVAE while maintaining practical parameter levels. The AREN
encoder is designed to operate effectively at multiple levels, accommodating
diverse architectural complexities. The key innovation is the integration of an
inter-pixel auto-attention mechanism into the AREN encoder. This approach
allows us to efficiently capture and utilize contextual information across
latent vectors. Additionally, our models uses additional encoding levels to
further enhance the model's representational power. Our attention layer employs
a minimal parameter approach, ensuring that latent vectors are modified only
when pertinent information from other pixels is available. Experimental results
demonstrate that our proposed modifications lead to significant improvements in
data representation and generation, making VQVAEs even more suitable for a wide
range of applications.
- Abstract(参考訳): 本稿では,Attentive Residual Encoder (AREN)とResidual Pixel Attention Layerを統合することで,VQVAEモデルの能力を高める新しいアプローチを提案する。
本研究の目的は,実用的なパラメータレベルを維持しつつ,VQVAEの性能を向上させることである。
ARENエンコーダは複数のレベルで効果的に動作し、多様なアーキテクチャの複雑さを収容するように設計されている。
重要なイノベーションは、ARENエンコーダにピクセル間自動アテンション機構を統合することである。
このアプローチにより,潜在ベクトル間のコンテキスト情報を効率的にキャプチャし,活用することができる。
さらに,モデルの表現力を高めるために,追加のエンコーディングレベルを用いる。
我々の注目層は最小パラメータのアプローチを採用し、他の画素からの関連する情報が利用可能である場合にのみ潜在ベクトルが修正されることを保証する。
実験の結果,提案する修正によりデータ表現と生成が大幅に改善され,vqvaeがより広い範囲のアプリケーションに適していることがわかった。
関連論文リスト
- HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models [96.76995840807615]
HiRes-LLaVAは、元の文脈情報や幾何学的情報を変更することなく、高解像度入力のサイズを処理するように設計された新しいフレームワークである。
HiRes-LLaVAは、2つの革新的なコンポーネントで構成されている: (i)スライスしたパッチを元の形式に再構築し、ダウンアップサンプリング層と畳み込み層を通じてグローバルとローカルの両方の特徴を効率的に抽出するSliceRestoreアダプタ、(ii)自分自身に基づいてビジョントークンを圧縮するセルフマイニングサンプリング。
論文 参考訳(メタデータ) (2024-07-11T17:42:17Z) - LiteVAE: Lightweight and Efficient Variational Autoencoders for Latent Diffusion Models [27.795088366122297]
LiteVAEは、潜在拡散モデル(LDM)のためのオートエンコーダのファミリーである
我々のモデルは、現在のLCDにおける確立されたVAEの品質と、エンコーダパラメータの6倍の削減とを一致させる。
私たちのより大きなモデルは、評価されたすべてのメトリクスで、同等の複雑さのVAEよりも優れています。
論文 参考訳(メタデータ) (2024-05-23T12:06:00Z) - HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-09-11T05:17:55Z) - Joint Hierarchical Priors and Adaptive Spatial Resolution for Efficient
Neural Image Compression [11.25130799452367]
ニューラル画像圧縮(NIC)のための絶対画像圧縮変換器(ICT)を提案する。
ICTは、潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャし、量子化された潜在表現の分布をパラメータ化する。
我々のフレームワークは、多目的ビデオ符号化(VVC)参照符号化(VTM-18.0)とニューラルスウィンT-ChARMに対する符号化効率とデコーダ複雑性のトレードオフを大幅に改善する。
論文 参考訳(メタデータ) (2023-07-05T13:17:14Z) - Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。
我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。
WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文 参考訳(メタデータ) (2023-02-12T13:51:36Z) - Hierarchical Residual Learning Based Vector Quantized Variational
Autoencoder for Image Reconstruction and Generation [19.92324010429006]
本稿では,階層的なデータの離散表現を学習するHR-VQVAEと呼ばれる多層変分オートエンコーダを提案する。
画像再構成と生成のタスクについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-08-09T06:04:25Z) - Activating More Pixels in Image Super-Resolution Transformer [53.87533738125943]
トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
提案手法は1dB以上で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-05-09T17:36:58Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。