論文の概要: Visual Fidelity Index for Generative Semantic Communications with Critical Information Embedding
- arxiv url: http://arxiv.org/abs/2505.10405v1
- Date: Thu, 15 May 2025 15:28:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.384507
- Title: Visual Fidelity Index for Generative Semantic Communications with Critical Information Embedding
- Title(参考訳): 臨界情報埋め込みを用いた生成意味コミュニケーションのための視覚的忠実度指数
- Authors: Jianhao Huang, Qunsong Zeng, Kaibin Huang,
- Abstract要約: 我々は、テキストプロンプトと意味的に重要な特徴の両方を抽出して送信するハイブリッドなGen-SemComシステムを開発した。
テキストプロンプトと臨界特徴を統合することにより、拡散ベース生成モデルを用いて高忠実度画像を再構成する。
実験の結果,視力に対するGVIF測定値の感度はPSNRと臨界情報量の両方に相関することがわかった。
- 参考スコア(独自算出の注目度): 29.28886512743758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative semantic communication (Gen-SemCom) with large artificial intelligence (AI) model promises a transformative paradigm for 6G networks, which reduces communication costs by transmitting low-dimensional prompts rather than raw data. However, purely prompt-driven generation loses fine-grained visual details. Additionally, there is a lack of systematic metrics to evaluate the performance of Gen-SemCom systems. To address these issues, we develop a hybrid Gen-SemCom system with a critical information embedding (CIE) framework, where both text prompts and semantically critical features are extracted for transmissions. First, a novel approach of semantic filtering is proposed to select and transmit the semantically critical features of images relevant to semantic label. By integrating the text prompt and critical features, the receiver reconstructs high-fidelity images using a diffusion-based generative model. Next, we propose the generative visual information fidelity (GVIF) metric to evaluate the visual quality of the generated image. By characterizing the statistical models of image features, the GVIF metric quantifies the mutual information between the distorted features and their original counterparts. By maximizing the GVIF metric, we design a channel-adaptive Gen-SemCom system that adaptively control the volume of features and compression rate according to the channel state. Experimental results validate the GVIF metric's sensitivity to visual fidelity, correlating with both the PSNR and critical information volume. In addition, the optimized system achieves superior performance over benchmarking schemes in terms of higher PSNR and lower FID scores.
- Abstract(参考訳): 大規模人工知能(AI)モデルによるジェネレーティブセマンティックコミュニケーション(Gen-SemCom)は、6Gネットワークの変換パラダイムを約束し、生データではなく低次元のプロンプトを送信することで通信コストを削減する。
しかし、純粋にプロンプト駆動生成は、きめ細かい視覚的詳細を失う。
さらに、Gen-SemComシステムの性能を評価するための体系的な指標が欠如している。
これらの問題に対処するために,テキストプロンプトと意味論的に重要な特徴を抽出するCIE(Critical Information Embedding)フレームワークを備えたハイブリッドなGen-SemComシステムを開発した。
まず,意味ラベルに関連する画像のセマンティッククリティカルな特徴を選択・伝達するためのセマンティックフィルタリング手法を提案する。
テキストプロンプトと臨界特徴を統合することにより、拡散ベース生成モデルを用いて高忠実度画像を再構成する。
次に、生成した画像の視覚的品質を評価するために、生成的視覚情報忠実度(GVIF)メトリクスを提案する。
画像特徴の統計モデルを特徴付けることにより、GVIFメトリックは歪んだ特徴と元の特徴との相互情報を定量化する。
GVIFメトリックを最大化することにより、チャネル状態に応じて特徴量と圧縮率を適応的に制御するチャネル適応型Gen-SemComシステムを設計する。
実験の結果,視力に対するGVIF測定値の感度はPSNRと臨界情報量の両方に相関することがわかった。
さらに,PSNRとFIDスコアの点で,ベンチマーク方式よりも優れた性能を実現する。
関連論文リスト
- Vision Transformer Based Semantic Communications for Next Generation Wireless Networks [3.8095664680229935]
本稿では視覚変換器(ViT)を用いた意味コミュニケーションフレームワークを提案する。
エンコーダ・デコーダ・フレームワークとしてViTを組み込むことで,提案アーキテクチャは画像から高いセマンティック・コンテントへ効率よくエンコードすることができる。
提案したViTネットワークに基づくアーキテクチャは,38dBのPak Signal-versato-noise Ratio(PSNR)を実現する。
論文 参考訳(メタデータ) (2025-03-21T16:23:02Z) - Vision Transformer-based Semantic Communications With Importance-Aware Quantization [13.328970689723096]
本稿では、無線画像伝送のための重要量化(IAQ)を用いた視覚変換器(ViT)に基づくセマンティック通信システムを提案する。
筆者らのIAQフレームワークは, エラーのない, 現実的な通信シナリオにおいて, 従来の画像圧縮手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-08T19:24:47Z) - Large Generative Model-assisted Talking-face Semantic Communication System [55.42631520122753]
本研究では,LGM-TSC(Large Generative Model-assisted Talking-face Semantic Communication)システムを提案する。
送信機のジェネレーティブセマンティック・エクストラクタ(GSE)は、意味的にスパースな音声映像を高情報密度のテキストに変換する。
意味的曖昧さと修正のためのLarge Language Model (LLM)に基づくPrivate Knowledge Base (KB)。
BERT-VITS2とSadTalkerモデルを用いた生成意味再構成(GSR)により、テキストを高QoE音声ビデオに変換する。
論文 参考訳(メタデータ) (2024-11-06T12:45:46Z) - Semantic Feature Decomposition based Semantic Communication System of Images with Large-scale Visual Generation Models [5.867765921443141]
テクスチャカラーに基づく画像TCSCIのセマンティックコミュニケーションシステムを提案する。
イメージを自然言語記述(テキスト)、テクスチャ、色の意味的特徴に分解する。
非常に圧縮され、ノイズに強く、視覚的に類似した画像意味コミュニケーションを実現し、伝送プロセスの解釈性と編集性を確保する。
論文 参考訳(メタデータ) (2024-10-26T08:53:05Z) - Trustworthy Image Semantic Communication with GenAI: Explainablity, Controllability, and Efficiency [59.15544887307901]
画像意味コミュニケーション(ISC)は,高効率な映像コンテンツ伝送を実現する可能性に注目されている。
既存のISCシステムは、解釈可能性、操作性、互換性の課題に直面している。
我々は、複数の下流推論タスクにGenerative Artificial Intelligence(GenAI)を利用する新しい信頼できるISCフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-07T14:32:36Z) - GenzIQA: Generalized Image Quality Assessment using Prompt-Guided Latent Diffusion Models [7.291687946822539]
最先端のNR-IQA手法の大きな欠点は、様々なIQA設定にまたがる一般化能力に制限があることである。
近年のテキスト・ツー・イメージ生成モデルでは,テキスト概念に関する細部から意味のある視覚概念が生成されている。
本研究では、学習可能な品質対応テキストプロンプトと画像のアライメントの程度を理解することにより、一般化されたIQAに対してそのような拡散モデルのデノベーションプロセスを利用する。
論文 参考訳(メタデータ) (2024-06-07T05:46:39Z) - Transformer-Aided Semantic Communications [28.63893944806149]
我々は、入力画像の圧縮とコンパクトな表現のために、視覚変換器を用いる。
変圧器固有のアテンション機構を用いることで、アテンションマスクを作成する。
提案手法の有効性をTinyImageNetデータセットを用いて評価した。
論文 参考訳(メタデータ) (2024-05-02T17:50:53Z) - G-Refine: A General Quality Refiner for Text-to-Image Generation [74.16137826891827]
G-Refineは,高画質画像の整合性を損なうことなく,低画質画像の高精細化を図った汎用画像精細機である。
このモデルは、知覚品質指標、アライメント品質指標、一般的な品質向上モジュールの3つの相互接続モジュールで構成されている。
大規模な実験により、G-Refine以降のAIGIは、4つのデータベースで10以上の品質指標でパフォーマンスが向上していることが明らかになった。
論文 参考訳(メタデータ) (2024-04-29T00:54:38Z) - Agent-driven Generative Semantic Communication with Cross-Modality and Prediction [57.335922373309074]
本稿では,強化学習に基づくエージェント駆動型ジェネリックセマンティックコミュニケーションフレームワークを提案する。
本研究では, エージェント支援型セマンティックエンコーダを開発し, 適応的セマンティック抽出とサンプリングを行う。
設計モデルの有効性をUA-DETRACデータセットを用いて検証し、全体的なA-GSCフレームワークの性能向上を実証した。
論文 参考訳(メタデータ) (2024-04-10T13:24:27Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。