論文の概要: Exploring Textual Semantics Diversity for Image Transmission in Semantic Communication Systems using Visual Language Model
- arxiv url: http://arxiv.org/abs/2503.19386v1
- Date: Tue, 25 Mar 2025 06:42:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:54:11.513827
- Title: Exploring Textual Semantics Diversity for Image Transmission in Semantic Communication Systems using Visual Language Model
- Title(参考訳): 視覚言語モデルを用いた意味コミュニケーションシステムにおける画像伝送のためのテキストセマンティクスの多様性の探索
- Authors: Peishan Huang, Dong Li,
- Abstract要約: 本稿では,視覚言語モデル(VLM)を用いて画像意味信号の伝達を支援するマルチテキスト・セマンティック通信システムを提案する。
従来の画像伝達セマンティック通信システムとは異なり、提案システムは画像を複数のブロックに分割し、修正された大言語と視覚アシスタント(LLaVA)を用いて画像から複数のテキスト情報を抽出する。
シミュレーションの結果,提案したテキストセマンティクスの多様性スキームは,関連作品と比較して再現精度を著しく向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 4.03161352925235
- License:
- Abstract: In recent years, the rapid development of machine learning has brought reforms and challenges to traditional communication systems. Semantic communication has appeared as an effective strategy to effectively extract relevant semantic signals semantic segmentation labels and image features for image transmission. However, the insufficient number of extracted semantic features of images will potentially result in a low reconstruction accuracy, which hinders the practical applications and still remains challenging for solving. In order to fill this gap, this letter proposes a multi-text transmission semantic communication (Multi-SC) system, which uses the visual language model (VLM) to assist in the transmission of image semantic signals. Unlike previous image transmission semantic communication systems, the proposed system divides the image into multiple blocks and extracts multiple text information from the image using a modified large language and visual assistant (LLaVA), and combines semantic segmentation tags with semantic text for image recovery. Simulation results show that the proposed text semantics diversity scheme can significantly improve the reconstruction accuracy compared with related works.
- Abstract(参考訳): 近年、機械学習の急速な発展は、従来の通信システムに改革と課題をもたらしている。
意味コミュニケーションは,画像伝達のための意味信号セグメンテーションラベルや画像特徴を効果的に抽出するための効果的な戦略として現れてきた。
しかし、抽出された画像のセマンティックな特徴が不足すると、再構成の精度が低下する可能性があるため、現実的な応用は妨げられ、解決には依然として困難である。
このギャップを埋めるために,視覚言語モデル(VLM)を用いて画像意味信号の伝達を支援するマルチテキスト・セマンティック・コミュニケーション(Multi-SC)システムを提案する。
従来の画像伝達セマンティック通信システムとは異なり、提案システムは画像を複数のブロックに分割し、修正された大言語と視覚アシスタント(LLaVA)を用いて画像から複数のテキスト情報を抽出し、セマンティックセマンティックセマンティックタグと画像回復のためのセマンティックテキストを組み合わせる。
シミュレーションの結果,提案したテキストセマンティクスの多様性スキームは,関連作品と比較して再現精度を著しく向上させることができることがわかった。
関連論文リスト
- ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Semantic Feature Decomposition based Semantic Communication System of Images with Large-scale Visual Generation Models [5.867765921443141]
テクスチャカラーに基づく画像TCSCIのセマンティックコミュニケーションシステムを提案する。
イメージを自然言語記述(テキスト)、テクスチャ、色の意味的特徴に分解する。
非常に圧縮され、ノイズに強く、視覚的に類似した画像意味コミュニケーションを実現し、伝送プロセスの解釈性と編集性を確保する。
論文 参考訳(メタデータ) (2024-10-26T08:53:05Z) - Trustworthy Image Semantic Communication with GenAI: Explainablity, Controllability, and Efficiency [59.15544887307901]
画像意味コミュニケーション(ISC)は,高効率な映像コンテンツ伝送を実現する可能性に注目されている。
既存のISCシステムは、解釈可能性、操作性、互換性の課題に直面している。
我々は、複数の下流推論タスクにGenerative Artificial Intelligence(GenAI)を利用する新しい信頼できるISCフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-07T14:32:36Z) - Semantic Similarity Score for Measuring Visual Similarity at Semantic Level [5.867765921443141]
シーングラフ生成とグラフマッチングに基づくセマンティック類似度スコア(Semantic similarity Score)のセマンティック評価指標を提案する。
このメトリクスは、画像の意味レベル情報のセマンティックレベルの違いを測定することができ、視覚的意味コミュニケーションシステムにおける評価に使用できる。
論文 参考訳(メタデータ) (2024-06-06T08:51:26Z) - Sequential Semantic Generative Communication for Progressive
Text-to-Image Generation [32.82954905044597]
本稿では,多モード生成モデルの有望な生成能力を活用した通信システムを提案する。
送信機は、多モデル生成プロセスを介して客観的画像をテキストに変換し、受信機は、逆処理を用いて画像を再構成する。
我々の研究は、最先端の生成モデルを実際の通信システムに活用する新たな道を開くことが期待されている。
論文 参考訳(メタデータ) (2023-09-08T12:17:49Z) - Communication-Efficient Framework for Distributed Image Semantic
Wireless Transmission [68.69108124451263]
IoTデバイスを用いたマルチタスク分散画像伝送のためのFederated Learning-based semantic communication (FLSC)フレームワーク。
各リンクは階層型視覚変換器(HVT)ベースの抽出器とタスク適応トランスレータで構成される。
チャネル状態情報に基づく多重出力多重出力伝送モジュール。
論文 参考訳(メタデータ) (2023-08-07T16:32:14Z) - Vector Quantized Semantic Communication System [22.579525825992416]
我々は,VQ-DeepSCという画像伝送のための深層学習可能なベクトル量子化(VQ)セマンティック通信システムを開発した。
具体的には、画像のマルチスケールな意味的特徴を抽出し、マルチスケールな意味的埋め込み空間を導入するCNNベースのトランシーバを提案する。
我々は、PatchGAN識別器を導入して、受信画像の品質を向上させるために、敵対訓練を実践する。
論文 参考訳(メタデータ) (2022-09-23T10:58:23Z) - Wireless Transmission of Images With The Assistance of Multi-level
Semantic Information [16.640928669609934]
MLSCイメージ(MLSC-image)は、無線画像伝送のためのマルチレベルセマンティックアウェアメント通信システムである。
テキストセマンティクスをキャプチャするために事前訓練された画像キャプションと、そのセマンティクスを得るために事前訓練された画像セマンティクスモデルを用いる。
提案した意味コミュニケーションシステムの有効性と効率を数値計算により検証した。
論文 参考訳(メタデータ) (2022-02-08T16:25:26Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。