論文の概要: VLF-MSC: Vision-Language Feature-Based Multimodal Semantic Communication System
- arxiv url: http://arxiv.org/abs/2511.10074v1
- Date: Fri, 14 Nov 2025 01:30:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.681387
- Title: VLF-MSC: Vision-Language Feature-Based Multimodal Semantic Communication System
- Title(参考訳): VLF-MSC:視覚言語特徴に基づくマルチモーダルセマンティック通信システム
- Authors: Gwangyeon Ahn, Jiwan Seo, Joonhyuk Kang,
- Abstract要約: Vision-Language Feature-based Multimodal Semantic Communication (VLF-MSC) は、単一の視覚言語表現を送信し、受信機での画像生成とテキスト生成をサポートする統一システムである。
基礎モデルを活用することにより,意味的忠実性を維持しつつ,チャネルノイズに対する堅牢性を実現する。
- 参考スコア(独自算出の注目度): 0.9176056742068811
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Vision-Language Feature-based Multimodal Semantic Communication (VLF-MSC), a unified system that transmits a single compact vision-language representation to support both image and text generation at the receiver. Unlike existing semantic communication techniques that process each modality separately, VLF-MSC employs a pre-trained vision-language model (VLM) to encode the source image into a vision-language semantic feature (VLF), which is transmitted over the wireless channel. At the receiver, a decoder-based language model and a diffusion-based image generator are both conditioned on the VLF to produce a descriptive text and a semantically aligned image. This unified representation eliminates the need for modality-specific streams or retransmissions, improving spectral efficiency and adaptability. By leveraging foundation models, the system achieves robustness to channel noise while preserving semantic fidelity. Experiments demonstrate that VLF-MSC outperforms text-only and image-only baselines, achieving higher semantic accuracy for both modalities under low SNR with significantly reduced bandwidth.
- Abstract(参考訳): 本稿では,単一のコンパクトな視覚言語表現を送信し,受信機における画像生成とテキスト生成をサポートする統合システムであるVLF-MSCを提案する。
それぞれのモダリティを個別に処理する既存のセマンティック通信技術とは異なり、VLF-MSCはトレーニング済みの視覚言語モデル(VLM)を使用して、ソース画像を無線チャネルを介して送信される視覚言語セマンティック機能(VLF)にエンコードする。
受信機では、デコーダベースの言語モデルと拡散ベースの画像生成装置の両方をVLFに条件付けし、記述テキストと意味的に整合した画像を生成する。
この統一された表現は、モダリティ固有のストリームや再送信の必要性を排除し、スペクトル効率と適応性を改善する。
基礎モデルを活用することにより,意味的忠実性を維持しつつ,チャネルノイズに対する堅牢性を実現する。
実験により、VLF-MSCはテキストのみのベースラインと画像のみのベースラインよりも優れており、帯域幅を大幅に削減した低SNRの下での両モードのセマンティック精度が向上することが示された。
関連論文リスト
- WVSC: Wireless Video Semantic Communication with Multi-frame Compensation [56.63352157833874]
既存の無線ビデオ伝送方式は画素レベルで直接映像符号化を行う。
本稿では,WVSCと略される無線ビデオセマンティック通信フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-27T06:27:15Z) - Vision Transformer Based Semantic Communications for Next Generation Wireless Networks [3.8095664680229935]
本稿では視覚変換器(ViT)を用いた意味コミュニケーションフレームワークを提案する。
エンコーダ・デコーダ・フレームワークとしてViTを組み込むことで,提案アーキテクチャは画像から高いセマンティック・コンテントへ効率よくエンコードすることができる。
提案したViTネットワークに基づくアーキテクチャは,38dBのPak Signal-versato-noise Ratio(PSNR)を実現する。
論文 参考訳(メタデータ) (2025-03-21T16:23:02Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Vision Transformer-based Semantic Communications With Importance-Aware Quantization [13.328970689723096]
本稿では、無線画像伝送のための重要量化(IAQ)を用いた視覚変換器(ViT)に基づくセマンティック通信システムを提案する。
筆者らのIAQフレームワークは, エラーのない, 現実的な通信シナリオにおいて, 従来の画像圧縮手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-08T19:24:47Z) - Visual Language Model based Cross-modal Semantic Communication Systems [42.321208020228894]
本稿では,視覚言語モデルに基づくクロスモーダル・セマンティックコミュニケーションシステムを提案する。
VLM−CSCは、3つの新規成分を含む。
実験により, CSCシステムの有効性, 適応性, 堅牢性を検証した。
論文 参考訳(メタデータ) (2024-05-06T08:59:16Z) - Communication-Efficient Framework for Distributed Image Semantic
Wireless Transmission [68.69108124451263]
IoTデバイスを用いたマルチタスク分散画像伝送のためのFederated Learning-based semantic communication (FLSC)フレームワーク。
各リンクは階層型視覚変換器(HVT)ベースの抽出器とタスク適応トランスレータで構成される。
チャネル状態情報に基づく多重出力多重出力伝送モジュール。
論文 参考訳(メタデータ) (2023-08-07T16:32:14Z) - OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.57580168859512]
我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。
従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。
我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
論文 参考訳(メタデータ) (2022-09-15T17:59:59Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。