論文の概要: Large AI Model-Enabled Generative Semantic Communications for Image Transmission
- arxiv url: http://arxiv.org/abs/2509.21394v1
- Date: Wed, 24 Sep 2025 07:46:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.902557
- Title: Large AI Model-Enabled Generative Semantic Communications for Image Transmission
- Title(参考訳): 画像伝送のための大容量AIモデルによる生成セマンティック通信
- Authors: Qiyu Ma, Wanli Ni, Zhijin Qin,
- Abstract要約: 本稿では,キー領域と非キー領域に分割することで,セマンティックな粒度を改良する,革新的な生成意味コミュニケーションシステムを提案する。
重要な視覚情報を含むキー領域は、画像指向セマンティックエンコーダを用いて処理される。
非キー領域は画像からテキストへのモデリング手法によって効率よく圧縮される。
- 参考スコア(独自算出の注目度): 37.127618237197495
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid development of generative artificial intelligence (AI) has introduced significant opportunities for enhancing the efficiency and accuracy of image transmission within semantic communication systems. Despite these advancements, existing methodologies often neglect the difference in importance of different regions of the image, potentially compromising the reconstruction quality of visually critical content. To address this issue, we introduce an innovative generative semantic communication system that refines semantic granularity by segmenting images into key and non-key regions. Key regions, which contain essential visual information, are processed using an image oriented semantic encoder, while non-key regions are efficiently compressed through an image-to-text modeling approach. Additionally, to mitigate the substantial storage and computational demands posed by large AI models, the proposed system employs a lightweight deployment strategy incorporating model quantization and low-rank adaptation fine-tuning techniques, significantly boosting resource utilization without sacrificing performance. Simulation results demonstrate that the proposed system outperforms traditional methods in terms of both semantic fidelity and visual quality, thereby affirming its effectiveness for image transmission tasks.
- Abstract(参考訳): 生成人工知能(AI)の急速な発展は、セマンティック通信システムにおける画像伝達の効率性と精度を高める重要な機会をもたらした。
これらの進歩にもかかわらず、既存の方法論は画像の異なる領域の重要性の違いを無視し、視覚的に重要なコンテンツの再構築品質を損なう可能性がある。
この問題に対処するために,画像をキー領域と非キー領域に分割することで意味的粒度を改良する,革新的な意味的コミュニケーションシステムを提案する。
重要な視覚情報を含むキー領域は、画像指向セマンティックエンコーダを用いて処理され、非キー領域は画像からテキストへのモデリングアプローチによって効率的に圧縮される。
さらに,大規模なAIモデルによって引き起こされるストレージと計算要求を緩和するため,提案システムは,モデル量子化と低ランク適応微調整技術を組み合わせた軽量な展開戦略を採用し,性能を犠牲にすることなく資源利用を著しく促進する。
シミュレーションの結果、提案システムは、意味的忠実度と視覚的品質の両方の観点から従来の手法よりも優れており、画像伝達タスクの有効性が確認されている。
関連論文リスト
- Visual Fidelity Index for Generative Semantic Communications with Critical Information Embedding [29.28886512743758]
我々は、テキストプロンプトと意味的に重要な特徴の両方を抽出して送信するハイブリッドなGen-SemComシステムを開発した。
テキストプロンプトと臨界特徴を統合することにより、拡散ベース生成モデルを用いて高忠実度画像を再構成する。
実験の結果,視力に対するGVIF測定値の感度はPSNRと臨界情報量の両方に相関することがわかった。
論文 参考訳(メタデータ) (2025-05-15T15:28:32Z) - Exploring Textual Semantics Diversity for Image Transmission in Semantic Communication Systems using Visual Language Model [4.03161352925235]
本稿では,視覚言語モデル(VLM)を用いて画像意味信号の伝達を支援するマルチテキスト・セマンティック通信システムを提案する。
従来の画像伝達セマンティック通信システムとは異なり、提案システムは画像を複数のブロックに分割し、修正された大言語と視覚アシスタント(LLaVA)を用いて画像から複数のテキスト情報を抽出する。
シミュレーションの結果,提案したテキストセマンティクスの多様性スキームは,関連作品と比較して再現精度を著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2025-03-25T06:42:30Z) - MambaIC: State Space Models for High-Performance Learned Image Compression [40.155314987485376]
多数のフィールドをまたいだリアルタイム情報伝送には,高性能な画像圧縮アルゴリズムが不可欠である。
状態空間モデル(SSM)の長距離依存性の捕捉効果に着想を得て,SSMを利用して既存手法の計算不効率に対処する。
そこで本稿では,MambaICと呼ばれる洗練されたコンテキストモデリングによる画像圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-16T11:32:34Z) - Semantic Communication based on Generative AI: A New Approach to Image Compression and Edge Optimization [1.450405446885067]
この論文は、最適化された画像圧縮とエッジネットワークリソース割り当てのための意味コミュニケーションと生成モデルを統合する。
通信インフラは、帯域幅効率とレイテンシーの大幅な改善の恩恵を受けることができる。
その結果、生成AIとセマンティックコミュニケーションを組み合わせて、より効率的なセマンティックゴール指向のコミュニケーションネットワークを構築する可能性を実証した。
論文 参考訳(メタデータ) (2025-02-01T21:48:31Z) - Vision Transformer-based Semantic Communications With Importance-Aware Quantization [13.328970689723096]
本稿では、無線画像伝送のための重要量化(IAQ)を用いた視覚変換器(ViT)に基づくセマンティック通信システムを提案する。
筆者らのIAQフレームワークは, エラーのない, 現実的な通信シナリオにおいて, 従来の画像圧縮手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-08T19:24:47Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。