論文の概要: MOC-RVQ: Multilevel Codebook-Assisted Digital Generative Semantic Communication
- arxiv url: http://arxiv.org/abs/2401.01272v2
- Date: Sat, 28 Sep 2024 10:48:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 21:59:53.215173
- Title: MOC-RVQ: Multilevel Codebook-Assisted Digital Generative Semantic Communication
- Title(参考訳): MOC-RVQ: マルチレベルコードブック支援ディジタル生成セマンティックコミュニケーション
- Authors: Yingbin Zhou, Yaping Sun, Guanying Chen, Xiaodong Xu, Hao Chen, Binhong Huang, Shuguang Cui, Ping Zhang,
- Abstract要約: 本稿では,2段階の学習フレームワークを用いた多段階生成セマンティックコミュニケーションシステムを提案する。
最初の段階では,マルチヘッドオクタナリーコードブックを用いて高品質なコードブックを訓練し,インデックス範囲を圧縮する。
第2段階では、Swin Transformerに基づくノイズ低減ブロック(NRB)が導入され、高品質なセマンティック知識ベースとして機能する。
- 参考スコア(独自算出の注目度): 43.17888320268593
- License:
- Abstract: Vector quantization-based image semantic communication systems have successfully boosted transmission efficiency, but face challenges with conflicting requirements between codebook design and digital constellation modulation. Traditional codebooks need wide index ranges, while modulation favors few discrete states. To address this, we propose a multilevel generative semantic communication system with a two-stage training framework. In the first stage, we train a high-quality codebook, using a multi-head octonary codebook (MOC) to compress the index range. In addition, a residual vector quantization (RVQ) mechanism is also integrated for effective multilevel communication. In the second stage, a noise reduction block (NRB) based on Swin Transformer is introduced, coupled with the multilevel codebook from the first stage, serving as a high-quality semantic knowledge base (SKB) for generative feature restoration. Finally, to simulate modern image transmission scenarios, we employ a diverse collection of high-resolution 2K images as the test set. The experimental results consistently demonstrate the superior performance of MOC-RVQ over conventional methods such as BPG or JPEG. Additionally, MOC-RVQ achieves comparable performance to an analog JSCC scheme, while needing only one-sixth of the channel bandwidth ratio (CBR) and being directly compatible with digital transmission systems.
- Abstract(参考訳): ベクトル量子化に基づく画像意味コミュニケーションシステムは伝送効率の向上に成功しているが、コードブック設計とデジタルコンステレーション変調の相反する要件に直面している。
伝統的なコードブックは広範囲のインデックスを必要とするが、変調は少数の離散状態を好む。
そこで本研究では,2段階の学習フレームワークを用いた多段階生成セマンティックコミュニケーションシステムを提案する。
最初の段階では、マルチヘッドオクタナリーコードブック(MOC)を用いて高品質なコードブックをトレーニングし、インデックス範囲を圧縮する。
さらに、効率的なマルチレベル通信のために、残留ベクトル量子化(RVQ)機構も統合されている。
第2段階では、Swin Transformerに基づくノイズ低減ブロック(NRB)と、第1段からのマルチレベルコードブックが組み合わされ、生成的特徴回復のための高品質なセマンティックナレッジベース(SKB)として機能する。
最後に、現代の画像伝送シナリオをシミュレートするために、テストセットとして高解像度2K画像の多種多様なコレクションを用いる。
実験結果は,従来手法であるBPGやJPEGよりもMOC-RVQの方が優れた性能を示した。
さらに、MOC-RVQはアナログJSCC方式に匹敵する性能を実現し、チャネル帯域幅比(CBR)の6分の1しか必要とせず、デジタル伝送システムと直接互換性がある。
関連論文リスト
- Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - MaskBit: Embedding-free Image Generation via Bit Tokens [54.827480008982185]
我々は,VQGANの実証的,体系的な検討を行い,近代化されたVQGANを導いた。
ビットトークンを直接操作する新しい埋め込み不要な生成ネットワークは、ImageNet 256x256ベンチマークで1.52の最先端FIDを達成し、わずか305Mパラメータのコンパクトなジェネレータモデルである。
論文 参考訳(メタデータ) (2024-09-24T16:12:12Z) - Learned Image Transmission with Hierarchical Variational Autoencoder [28.084648666081943]
画像伝送のための革新的階層型ジョイントソースチャネル符号化(HJSCC)フレームワークを提案する。
提案手法では,送信側のボトムアップパスとトップダウンパスの組み合わせを利用して,元の画像の複数の階層表現を自動回帰的に生成する。
提案手法は, 周波数歪み特性において既存のベースラインより優れ, チャネルノイズに対するロバスト性を維持している。
論文 参考訳(メタデータ) (2024-08-29T08:23:57Z) - Visual Language Model based Cross-modal Semantic Communication Systems [42.321208020228894]
本稿では,視覚言語モデルに基づくクロスモーダル・セマンティックコミュニケーションシステムを提案する。
VLM−CSCは、3つの新規成分を含む。
実験により, CSCシステムの有効性, 適応性, 堅牢性を検証した。
論文 参考訳(メタデータ) (2024-05-06T08:59:16Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z) - Vector Quantized Semantic Communication System [22.579525825992416]
我々は,VQ-DeepSCという画像伝送のための深層学習可能なベクトル量子化(VQ)セマンティック通信システムを開発した。
具体的には、画像のマルチスケールな意味的特徴を抽出し、マルチスケールな意味的埋め込み空間を導入するCNNベースのトランシーバを提案する。
我々は、PatchGAN識別器を導入して、受信画像の品質を向上させるために、敵対訓練を実践する。
論文 参考訳(メタデータ) (2022-09-23T10:58:23Z) - MoVQ: Modulating Quantized Vectors for High-Fidelity Image Generation [41.029441562130984]
2段階ベクトル量子化(VQ)生成モデルは、高忠実度と高解像度の画像の合成を可能にする。
提案した変調VQGANは、再構成画像の品質を大幅に向上し、高忠実度画像生成を可能にする。
論文 参考訳(メタデータ) (2022-09-19T13:26:51Z) - CADyQ: Content-Aware Dynamic Quantization for Image Super-Resolution [55.50793823060282]
本稿では,画像超解像(SR)ネットワークのための新しいコンテント・アウェア・ダイナミック量子化(CADyQ)手法を提案する。
CADyQは、入力画像のローカル内容に基づいて、局所領域と層に最適なビットを適応的に割り当てる。
パイプラインは様々なSRネットワークでテストされ、いくつかの標準ベンチマークで評価されている。
論文 参考訳(メタデータ) (2022-07-21T07:50:50Z) - Learned Multi-Resolution Variable-Rate Image Compression with
Octave-based Residual Blocks [15.308823742699039]
一般化オクターブ畳み込み(GoConv)と一般化オクターブ畳み込み(GoTConv)を用いた新しい可変レート画像圧縮フレームワークを提案する。
単一モデルが異なるビットレートで動作し、複数レートの画像特徴を学習できるようにするため、新しい目的関数が導入される。
実験結果から,H.265/HEVCベースのBPGや最先端の学習に基づく可変レート法などの標準コーデックよりも高い性能を示した。
論文 参考訳(メタデータ) (2020-12-31T06:26:56Z) - Optimal Gradient Quantization Condition for Communication-Efficient
Distributed Training [99.42912552638168]
勾配の通信は、コンピュータビジョンアプリケーションで複数のデバイスでディープニューラルネットワークをトレーニングするのに費用がかかる。
本研究は,textbfANY勾配分布に対する二値および多値勾配量子化の最適条件を導出する。
最適条件に基づいて, 偏差BinGradと非偏差ORQの2値勾配量子化と多値勾配量子化の2つの新しい量子化手法を開発した。
論文 参考訳(メタデータ) (2020-02-25T18:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。