論文の概要: Quantum Down Sampling Filter for Variational Auto-encoder
- arxiv url: http://arxiv.org/abs/2501.06259v2
- Date: Thu, 30 Jan 2025 00:31:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 18:42:09.746121
- Title: Quantum Down Sampling Filter for Variational Auto-encoder
- Title(参考訳): 変分オートエンコーダ用量子ダウンサンプリングフィルタ
- Authors: Farina Riaz, Fakhar Zaman, Hajime Suzuki, Sharif Abuadbba, David Nguyen,
- Abstract要約: 変分オートエンコーダ(VAE)は、生成モデリングと画像再構成に不可欠なツールである。
本研究は, 画像の解像度を向上し, 細部を保存することにより, 画像の画質を向上させることを目的とする。
本稿では,VAEエンコーダの量子コンピューティング技術とデコーダの畳み込みニューラルネットワーク(CNN)を組み合わせたハイブリッドモデルを提案する。
- 参考スコア(独自算出の注目度): 0.504868948270058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Variational Autoencoders (VAEs) are essential tools in generative modeling and image reconstruction, with their performance heavily influenced by the encoder-decoder architecture. This study aims to improve the quality of reconstructed images by enhancing their resolution and preserving finer details, particularly when working with low-resolution inputs (16x16 pixels), where traditional VAEs often yield blurred or in-accurate results. To address this, we propose a hybrid model that combines quantum computing techniques in the VAE encoder with convolutional neural networks (CNNs) in the decoder. By upscaling the resolution from 16x16 to 32x32 during the encoding process, our approach evaluates how the model reconstructs images with enhanced resolution while maintaining key features and structures. This method tests the model's robustness in handling image reconstruction and its ability to preserve essential details despite training on lower-resolution data. We evaluate our proposed down sampling filter for Quantum VAE (Q-VAE) on the MNIST and USPS datasets and compare it with classical VAEs and a variant called Classical Direct Passing VAE (CDP-VAE), which uses windowing pooling filters in the encoding process. Performance is assessed using metrics such as the Frechet Inception Distance (FID) and Mean Squared Error (MSE), which measure the fidelity of reconstructed images. Our results demonstrate that the Q-VAE consistently outperforms both the Classical VAE and CDP-VAE, achieving significantly lower FID and MSE scores. Additionally, CDP-VAE yields better performance than C-VAE. These findings highlight the potential of quantum-enhanced VAEs to improve image reconstruction quality by enhancing resolution and preserving essential features, offering a promising direction for future applications in computer vision and synthetic data generation.
- Abstract(参考訳): 変分オートエンコーダ(VAE)は、生成モデリングや画像再構成において必須のツールであり、その性能はエンコーダ・デコーダアーキテクチャに大きく影響されている。
本研究の目的は,低解像度入力(16×16ピクセル)で作業する場合,特に従来のVAEがぼやけた結果や不正確な結果を得る場合において,解像度を向上し,細かな情報を保存することにより,再構成画像の品質を向上させることである。
そこで本研究では,VAEエンコーダの量子コンピューティング技術とデコーダの畳み込みニューラルネットワーク(CNN)を組み合わせたハイブリッドモデルを提案する。
符号化処理中に解像度を16x16から32x32にアップスケールすることにより、重要な特徴や構造を維持しながら解像度を向上した画像の再構成方法を評価する。
本手法は,低解像度データのトレーニングにもかかわらず,画像再構成処理におけるモデルの頑健さと重要な詳細性を維持する能力をテストする。
我々は、MNISTおよびUSPSデータセット上の量子VAE(Q-VAE)のダウンサンプリングフィルタを評価し、それを古典的なVAEと、符号化プロセスにおけるウィンドウリングプーリングフィルタを用いたCDP-VAE(Classical Direct Passing VAE)と呼ばれる変種と比較した。
Frechet Inception Distance (FID) や Mean Squared Error (MSE) といった、再構成画像の忠実度を測定するメトリクスを用いて、パフォーマンスを評価する。
以上の結果から,Q-VAEは古典的VAEとCDP-VAEのどちらよりも一貫して優れており,FIDとMSEのスコアは著しく低いことがわかった。
さらに、CDP-VAEはC-VAEよりも優れた性能が得られる。
これらの知見は、解像度を向上し、重要な特徴を保ち、コンピュータビジョンや合成データ生成における将来の応用に期待できる方向を提供することにより、画像再構成品質を向上させるための量子強化型VAEの可能性を強調している。
関連論文リスト
- Pathology Image Compression with Pre-trained Autoencoders [52.208181380986524]
デジタル病理学における全スライド画像は、記憶、伝達、計算効率の面で大きな課題をもたらす。
JPEGのような標準的な圧縮手法はファイルサイズを小さくするが、下流のタスクに不可欠な微細な表現型の詳細を保存できない。
本研究では,遅延拡散モデル用に設計されたオートエンコーダ(AE)を,病理画像の効率的な学習圧縮フレームワークとして再利用する。
論文 参考訳(メタデータ) (2025-03-14T17:01:17Z) - IQPFR: An Image Quality Prior for Blind Face Restoration and Beyond [56.99331967165238]
Blind Face Restoration (BFR)は、劣化した低品質(LQ)の顔画像を高品質(HQ)の出力に再構成する課題に対処する。
本研究では,非参照画像品質評価(NR-IQA)モデルから得られた画像品質優先(IQP)を組み込んだ新しいフレームワークを提案する。
提案手法は,複数のベンチマークにおいて最先端技術より優れている。
論文 参考訳(メタデータ) (2025-03-12T11:39:51Z) - EQ-VAE: Equivariance Regularized Latent Space for Improved Generative Image Modeling [11.075247758198762]
潜在生成モデルは、イメージを潜在空間に圧縮するためのオートエンコーダに依存し、次いで、潜在分布を学習するための生成モデルが続く。
EQ-VAE(EQ-VAE)は、遅延空間における等式を強制し、再構成品質を劣化させることなく、その複雑さを低減させる単純な正規化手法である。
DiT, SiT, REPA, MaskGITなどの最先端生成モデルの性能を向上し, SD-VAE微調整を5回だけ行うことで, DiT-XL/2上で7回の高速化を実現した。
論文 参考訳(メタデータ) (2025-02-13T17:21:51Z) - Epsilon-VAE: Denoising as Visual Decoding [61.29255979767292]
生成モデリングにおいて、トークン化は複雑なデータをコンパクトで構造化された表現に単純化し、より効率的で学習可能な空間を作り出す。
現在の視覚的トークン化手法は従来のオートエンコーダフレームワークに依存しており、エンコーダはデータを潜在表現に圧縮し、デコーダは元の入力を再構築する。
具体的には,デコーダを拡散処理に置き換え,ノイズを反復的に除去して元のイメージを復元し,エンコーダが提供する潜伏者によって誘導される。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - VAE-QWGAN: Improving Quantum GANs for High Resolution Image Generation [4.297070083645049]
VAE-QWGANは、VAEデコーダとQGANジェネレータを共有パラメータを持つ単一の量子モデルに統合する。
我々は、MNIST/Fashion-MNISTデータセットにおけるモデルの性能を評価し、生成した画像の品質と多様性を改善した。
論文 参考訳(メタデータ) (2024-09-16T14:52:22Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Deep Equilibrium Diffusion Restoration with Parallel Sampling [120.15039525209106]
拡散モデルに基づく画像復元(IR)は、拡散モデルを用いて劣化した画像から高品質な(本社)画像を復元し、有望な性能を達成することを目的としている。
既存のほとんどの手法では、HQイメージをステップバイステップで復元するために長いシリアルサンプリングチェーンが必要であるため、高価なサンプリング時間と高い計算コストがかかる。
本研究では,拡散モデルに基づくIRモデルを異なる視点,すなわちDeqIRと呼ばれるDeQ(Deep equilibrium)固定点系で再考することを目的とする。
論文 参考訳(メタデータ) (2023-11-20T08:27:56Z) - In-Domain GAN Inversion for Faithful Reconstruction and Editability [132.68255553099834]
ドメイン誘導型ドメイン正規化とエンコーダで構成されたドメイン内GANインバージョンを提案し、事前学習されたGANモデルのネイティブ潜在空間における反転コードを正規化する。
エンコーダ構造,開始反転点,および逆パラメータ空間の効果を総合的に解析し,再構成品質と編集特性とのトレードオフを観察する。
論文 参考訳(メタデータ) (2023-09-25T08:42:06Z) - Joint Hierarchical Priors and Adaptive Spatial Resolution for Efficient
Neural Image Compression [11.25130799452367]
ニューラル画像圧縮(NIC)のための絶対画像圧縮変換器(ICT)を提案する。
ICTは、潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャし、量子化された潜在表現の分布をパラメータ化する。
我々のフレームワークは、多目的ビデオ符号化(VVC)参照符号化(VTM-18.0)とニューラルスウィンT-ChARMに対する符号化効率とデコーダ複雑性のトレードオフを大幅に改善する。
論文 参考訳(メタデータ) (2023-07-05T13:17:14Z) - MoVQ: Modulating Quantized Vectors for High-Fidelity Image Generation [41.029441562130984]
2段階ベクトル量子化(VQ)生成モデルは、高忠実度と高解像度の画像の合成を可能にする。
提案した変調VQGANは、再構成画像の品質を大幅に向上し、高忠実度画像生成を可能にする。
論文 参考訳(メタデータ) (2022-09-19T13:26:51Z) - Hierarchical Residual Learning Based Vector Quantized Variational
Autoencoder for Image Reconstruction and Generation [19.92324010429006]
本稿では,階層的なデータの離散表現を学習するHR-VQVAEと呼ばれる多層変分オートエンコーダを提案する。
画像再構成と生成のタスクについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-08-09T06:04:25Z) - Exploring Resolution and Degradation Clues as Self-supervised Signal for
Low Quality Object Detection [77.3530907443279]
劣化した低解像度画像中の物体を検出するための,新しい自己教師型フレームワークを提案する。
本手法は, 既存手法と比較して, 異変劣化状況に直面する場合に比べ, 優れた性能を示した。
論文 参考訳(メタデータ) (2022-08-05T09:36:13Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG
Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。
実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文 参考訳(メタデータ) (2022-01-27T20:20:03Z) - NVAE: A Deep Hierarchical Variational Autoencoder [102.29977384039805]
本稿では,深度ワイド分離可能な畳み込みとバッチ正規化を用いた画像生成のための階層型VAEを提案する。
NVAEは非自己回帰的確率ベースモデルにおいて最先端の結果が得られることを示す。
我々の知る限りでは、NVAEは256$times $256ピクセルの自然画像に適用された最初のVAEである。
論文 参考訳(メタデータ) (2020-07-08T04:56:56Z) - Hierarchical Quantized Autoencoders [3.9146761527401432]
本稿では,Vector Quantized Variencoders (VQ-VAEs) の階層構造を用いて,高い圧縮係数を求める。
量子化と階層的潜在構造の組み合わせは、確率に基づく画像圧縮に役立つことを示す。
得られたスキームは、高い知覚品質の画像を再構成するマルコフ変数の列を生成する。
論文 参考訳(メタデータ) (2020-02-19T11:26:34Z) - Neuromorphologicaly-preserving Volumetric data encoding using VQ-VAE [4.221619479687068]
VQ-VAEにインスパイアされたネットワークは、全解像度の3D脳の容積を効率よくエンコードし、画像の忠実さを維持しながら元のサイズの0.825%$に圧縮できることを示す。
次に、VQ-VAEデコードされた画像は、ボクセルに基づく形態学およびセグメンテーション実験により、元のデータの形態的特性を保っていることを示す。
論文 参考訳(メタデータ) (2020-02-13T18:18:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。