論文の概要: SQ-GAN: Semantic Image Communications Using Masked Vector Quantization
- arxiv url: http://arxiv.org/abs/2502.09520v1
- Date: Thu, 13 Feb 2025 17:35:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:44:41.017700
- Title: SQ-GAN: Semantic Image Communications Using Masked Vector Quantization
- Title(参考訳): SQ-GAN: Masked Vector Quantization を用いた意味的画像通信
- Authors: Francesco Pezone, Sergio Barbarossa, Giuseppe Caire,
- Abstract要約: 本研究ではセマンティック・マスケッドVQ-GAN(SQ-GAN)を導入し,セマンティック・タスク指向通信のための画像圧縮を最適化する手法を提案する。
SQ-GANは、セマンティックセマンティックセグメンテーションと新しいセマンティック条件適応マスクモジュール(SAMM)を使用して、画像のセマンティックな重要な特徴を選択的にエンコードする。
- 参考スコア(独自算出の注目度): 55.02795214161371
- License:
- Abstract: This work introduces Semantically Masked VQ-GAN (SQ-GAN), a novel approach integrating generative models to optimize image compression for semantic/task-oriented communications. SQ-GAN employs off-the-shelf semantic semantic segmentation and a new specifically developed semantic-conditioned adaptive mask module (SAMM) to selectively encode semantically significant features of the images. SQ-GAN outperforms state-of-the-art image compression schemes such as JPEG2000 and BPG across multiple metrics, including perceptual quality and semantic segmentation accuracy on the post-decoding reconstructed image, at extreme low compression rates expressed in bits per pixel.
- Abstract(参考訳): 本研究は,セマンティック・マスケッドVQ-GAN (SQ-GAN) を導入し,セマンティック・タスク指向通信のための画像圧縮を最適化するための生成モデルを統合する。
SQ-GANは、セマンティックセマンティックセマンティックセマンティクスと、画像のセマンティクス的に重要な特徴を選択的にエンコードするために、新たに開発されたセマンティクス条件適応マスクモジュール(SAMM)を採用している。
SQ-GAN は、JPEG2000 や BPG のような最先端の画像圧縮スキームよりも優れており、知覚的品質や、再構成後の画像のセマンティックセマンティックセグメンテーションの精度は、1ピクセルあたりのビットで表現される極端に低い圧縮率である。
関連論文リスト
- Semantics Prompting Data-Free Quantization for Low-Bit Vision Transformers [59.772673692679085]
セマンティックスプロンプトデータ自由量子化手法であるSPDFQを提案する。
まず、SPDFQはAPA(Attention Priors Alignment)を組み込んでいる。
第二に、SPDFQはマルチセマンティック強化(Multi-Semantic Reinforcement、MSR)を導入している。
論文 参考訳(メタデータ) (2024-12-21T09:30:45Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - Exploring Effective Mask Sampling Modeling for Neural Image Compression [171.35596121939238]
既存のニューラルイメージ圧縮手法の多くは、空間的冗長性を排除するために、ハイパープライアモデルやコンテキストモデルからのサイド情報に依存している。
近年の自然言語処理と高次視覚のための自己教師付き学習手法におけるマスクサンプリングモデルに着想を得て,ニューラル画像圧縮のための新しい事前学習戦略を提案する。
提案手法は,最先端画像圧縮法と比較して計算複雑性の低い競合性能を実現する。
論文 参考訳(メタデータ) (2023-06-09T06:50:20Z) - SigVIC: Spatial Importance Guided Variable-Rate Image Compression [43.062173445454775]
可変レート機構は、学習に基づく画像圧縮の柔軟性と効率を改善した。
可変レートの最も一般的なアプローチの1つは、チャネルワイズまたは空間均一な内部特徴のスケーリングである。
本稿では,空間的重要度を適応的に学習する空間的ゲーティングユニット(SGU)を設計した空間的重要度誘導可変画像圧縮(SigVIC)を提案する。
論文 参考訳(メタデータ) (2023-03-16T06:57:51Z) - MoVQ: Modulating Quantized Vectors for High-Fidelity Image Generation [41.029441562130984]
2段階ベクトル量子化(VQ)生成モデルは、高忠実度と高解像度の画像の合成を可能にする。
提案した変調VQGANは、再構成画像の品質を大幅に向上し、高忠実度画像生成を可能にする。
論文 参考訳(メタデータ) (2022-09-19T13:26:51Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Transformer-based Image Compression [18.976159633970177]
Transformer-based Image Compression (TIC) アプローチは、標準変分オートエンコーダ(VAE)アーキテクチャをメインおよびハイパーエンコーダデコーダのペアで再利用する。
TICは、Deep Convolutional Neural Network(CNN)ベースの学習画像符号化(lic)メソッドや、最近承認されたVersatile Video Coding(VVC)標準のハンドクラフトルールベースの内部プロファイルなど、最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-11-12T13:13:20Z) - Variable-Rate Deep Image Compression through Spatially-Adaptive Feature
Transform [58.60004238261117]
空間特徴変換(SFT arXiv:1804.02815)に基づく多目的深部画像圧縮ネットワークを提案する。
本モデルは,任意の画素単位の品質マップによって制御される単一モデルを用いて,幅広い圧縮速度をカバーしている。
提案するフレームワークにより,様々なタスクに対してタスク対応の画像圧縮を行うことができる。
論文 参考訳(メタデータ) (2021-08-21T17:30:06Z) - Hierarchical Quantized Autoencoders [3.9146761527401432]
本稿では,Vector Quantized Variencoders (VQ-VAEs) の階層構造を用いて,高い圧縮係数を求める。
量子化と階層的潜在構造の組み合わせは、確率に基づく画像圧縮に役立つことを示す。
得られたスキームは、高い知覚品質の画像を再構成するマルコフ変数の列を生成する。
論文 参考訳(メタデータ) (2020-02-19T11:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。