論文の概要: SQ-GAN: Semantic Image Communications Using Masked Vector Quantization
- arxiv url: http://arxiv.org/abs/2502.09520v2
- Date: Fri, 10 Oct 2025 10:21:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 04:53:46.721786
- Title: SQ-GAN: Semantic Image Communications Using Masked Vector Quantization
- Title(参考訳): SQ-GAN: Masked Vector Quantization を用いた意味的画像通信
- Authors: Francesco Pezone, Sergio Barbarossa, Giuseppe Caire,
- Abstract要約: 本研究はSQ-GAN(Semantically Masked Vector Quantized Generative Adversarial Network)を紹介する。
これは、セマンティック駆動画像符号化とベクトル量子化を統合して、セマンティック/タスク指向通信のための画像圧縮を最適化する新しいアプローチである。
SQ-GANはJPEG2000、BPG、ディープラーニングベースの手法など、最先端の画像圧縮方式よりも優れています。
- 参考スコア(独自算出の注目度): 54.35918290143049
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work introduces Semantically Masked Vector Quantized Generative Adversarial Network (SQ-GAN), a novel approach integrating semantically driven image coding and vector quantization to optimize image compression for semantic/task-oriented communications. The method only acts on source coding and is fully compliant with legacy systems. The semantics is extracted from the image computing its semantic segmentation map using off-the-shelf software. A new specifically developed semantic-conditioned adaptive mask module (SAMM) selectively encodes semantically relevant features of the image. The relevance of the different semantic classes is task-specific, and it is incorporated in the training phase by introducing appropriate weights in the loss function. SQ-GAN outperforms state-of-the-art image compression schemes such as JPEG2000, BPG, and deep-learning based methods across multiple metrics, including perceptual quality and semantic segmentation accuracy on the reconstructed image, at extremely low compression rates.
- Abstract(参考訳): 本研究は,セマンティック・マスクドベクトル量子化生成適応ネットワーク(SQ-GAN)を導入し,セマンティック・タスク指向通信のための画像圧縮を最適化するために,セマンティックな画像符号化とベクトル量子化を統合した新しいアプローチを提案する。
この方法はソースコーディングにのみ作用し、レガシーシステムに完全に準拠する。
セマンティクスは、そのセマンティクスセグメンテーションマップをオフザシェルフソフトウェアを用いて計算した画像から抽出される。
新しいセマンティック・コンディショニング・アダプティブ・マスクモジュール (SAMM) は、画像のセマンティックな特徴を選択的に符号化する。
異なるセマンティッククラスの関連性はタスク固有であり、損失関数に適切な重みを導入することにより、トレーニングフェーズに組み込まれる。
SQ-GANはJPEG2000、BPGなどの最先端画像圧縮方式と、再構成画像の知覚的品質やセマンティックセグメンテーションの精度など、複数のメトリクスにわたるディープラーニングベースの手法を極めて低い圧縮速度で上回る。
関連論文リスト
- BPCLIP: A Bottom-up Image Quality Assessment from Distortion to Semantics Based on CLIP [18.25854559825818]
比較言語-画像事前学習(CLIP)に基づくボトムアップ画像品質評価手法を提案する。
具体的には,エンコーダを用いて入力画像からマルチスケール特徴を抽出し,ボトムアップ型マルチスケールクロスアテンションモジュールを導入する。
6つの異なる次元に40の画像品質形容詞を組み込むことで、事前学習したCLIPテキストエンコーダが画像固有の品質の表現を生成することができる。
論文 参考訳(メタデータ) (2025-06-22T09:56:57Z) - Extremely low-bitrate Image Compression Semantically Disentangled by LMMs from a Human Perception Perspective [2.542077227403488]
人間のプログレッシブ・コンプレッション・メカニズムにインスパイアされたセマンティック・ディスタングル・イメージ・圧縮フレームワークを提案する。
我々はLMMを利用して、全体記述、オブジェクト詳細記述、セマンティックセグメンテーションマスクを含む重要なセマンティックコンポーネントを抽出する。
本研究では,事前学習したControlNet上に構築され,オブジェクトレベルのテキスト記述やセマンティックマスクによって条件付けられたオブジェクトの詳細を復元する,注意誘導型オブジェクト復元モデルを提案する。
論文 参考訳(メタデータ) (2025-03-01T08:27:11Z) - Hierarchical Semantic Compression for Consistent Image Semantic Restoration [62.97519327310638]
生成モデルから固有意味空間内で純粋に機能する新しい階層意味圧縮(HSC)フレームワークを提案する。
実験の結果,提案したHSCフレームワークは人間の視力に対する主観的品質と一貫性に関する最先端の性能を実現することが示された。
論文 参考訳(メタデータ) (2025-02-24T03:20:44Z) - Semantics Prompting Data-Free Quantization for Low-Bit Vision Transformers [59.772673692679085]
セマンティックスプロンプトデータ自由量子化手法であるSPDFQを提案する。
まず、SPDFQはAPA(Attention Priors Alignment)を組み込んでいる。
第二に、SPDFQはマルチセマンティック強化(Multi-Semantic Reinforcement、MSR)を導入している。
論文 参考訳(メタデータ) (2024-12-21T09:30:45Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - Exploring Effective Mask Sampling Modeling for Neural Image Compression [171.35596121939238]
既存のニューラルイメージ圧縮手法の多くは、空間的冗長性を排除するために、ハイパープライアモデルやコンテキストモデルからのサイド情報に依存している。
近年の自然言語処理と高次視覚のための自己教師付き学習手法におけるマスクサンプリングモデルに着想を得て,ニューラル画像圧縮のための新しい事前学習戦略を提案する。
提案手法は,最先端画像圧縮法と比較して計算複雑性の低い競合性能を実現する。
論文 参考訳(メタデータ) (2023-06-09T06:50:20Z) - SigVIC: Spatial Importance Guided Variable-Rate Image Compression [43.062173445454775]
可変レート機構は、学習に基づく画像圧縮の柔軟性と効率を改善した。
可変レートの最も一般的なアプローチの1つは、チャネルワイズまたは空間均一な内部特徴のスケーリングである。
本稿では,空間的重要度を適応的に学習する空間的ゲーティングユニット(SGU)を設計した空間的重要度誘導可変画像圧縮(SigVIC)を提案する。
論文 参考訳(メタデータ) (2023-03-16T06:57:51Z) - MoVQ: Modulating Quantized Vectors for High-Fidelity Image Generation [41.029441562130984]
2段階ベクトル量子化(VQ)生成モデルは、高忠実度と高解像度の画像の合成を可能にする。
提案した変調VQGANは、再構成画像の品質を大幅に向上し、高忠実度画像生成を可能にする。
論文 参考訳(メタデータ) (2022-09-19T13:26:51Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Transformer-based Image Compression [18.976159633970177]
Transformer-based Image Compression (TIC) アプローチは、標準変分オートエンコーダ(VAE)アーキテクチャをメインおよびハイパーエンコーダデコーダのペアで再利用する。
TICは、Deep Convolutional Neural Network(CNN)ベースの学習画像符号化(lic)メソッドや、最近承認されたVersatile Video Coding(VVC)標準のハンドクラフトルールベースの内部プロファイルなど、最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-11-12T13:13:20Z) - Hierarchical Quantized Autoencoders [3.9146761527401432]
本稿では,Vector Quantized Variencoders (VQ-VAEs) の階層構造を用いて,高い圧縮係数を求める。
量子化と階層的潜在構造の組み合わせは、確率に基づく画像圧縮に役立つことを示す。
得られたスキームは、高い知覚品質の画像を再構成するマルコフ変数の列を生成する。
論文 参考訳(メタデータ) (2020-02-19T11:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。