論文の概要: Efficient Semantic Image Communication for Traffic Monitoring at the Edge
- arxiv url: http://arxiv.org/abs/2604.12622v1
- Date: Tue, 14 Apr 2026 11:51:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.417843
- Title: Efficient Semantic Image Communication for Traffic Monitoring at the Edge
- Title(参考訳): エッジにおける交通監視のための効率的なセマンティック画像通信
- Authors: Damir Assylbek, Nurmukhammed Aitymbetov, Marko Ristin, Dimitrios Zorbas,
- Abstract要約: 本稿では,交通監視のための2つのセマンティック画像通信パイプラインであるMMSDとSAMRについて述べる。
実験の結果, MMSDは99%, SAMRは99.1%, 平均送信データ削減率は99%であった。
- 参考スコア(独自算出の注目度): 0.6999740786886536
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Many visual monitoring systems operate under strict communication constraints, where transmitting full-resolution images is impractical and often unnecessary. In such settings, visual data is often used for object presence, spatial relationships, and scene context rather than exact pixel fidelity. This paper presents two semantic image communication pipelines for traffic monitoring, MMSD and SAMR, that reduce transmission cost while preserving meaningful visual information. MMSD (Multi-Modal Semantic Decomposition) targets very high compression together with data confidentiality, since sensitive pixel content is not transmitted. It replaces the original image with compact semantic representations, namely segmentation maps, edge maps, and textual descriptions, and reconstructs the scene at the receiver using a diffusion-based generative model. SAMR (Semantic-Aware Masking Reconstruction) targets higher visual quality while maintaining strong compression. It selectively suppresses non-critical image regions according to semantic importance before standard JPEG encoding and restores the missing content at the receiver through generative inpainting. Both designs follow an asymmetric sender-receiver architecture, where lightweight processing is performed at the edge and computationally intensive reconstruction is offloaded to the server. On a Raspberry Pi~5, the edge-side processing time is about 15s for MMSD and 9s for SAMR. Experimental results show average transmitted-data reductions of 99% for MMSD and 99.1% for SAMR. In addition, MMSD achieves lower payload size than the recent SPIC baseline while preserving strong semantic consistency, whereas SAMR provides a better quality-compression trade-off than standard JPEG and SQ-GAN under comparable operating conditions.
- Abstract(参考訳): 多くの視覚監視システムは厳密な通信制約の下で動作し、フル解像度画像の送信は非現実的であり、しばしば不要である。
このような設定では、ビジュアルデータは、正確なピクセルの忠実さよりも、オブジェクトの存在、空間的関係、シーンコンテキストによく使用される。
本稿では,交通監視のための2つのセマンティック画像通信パイプラインであるMMSDとSAMRについて述べる。
MMSD (Multi-Modal Semantic Decomposition) は、機密画素が送信されないため、データ機密性とともに非常に高い圧縮を目標としている。
元のイメージをコンパクトな意味表現、すなわちセグメンテーションマップ、エッジマップ、テキスト記述に置き換え、拡散ベースの生成モデルを用いてレシーバーのシーンを再構築する。
SAMR(Semantic-Aware Masking Reconstruction)は、強い圧縮を維持しながら、より高い視覚品質を目標とする。
JPEG符号化前の意味的重要性に応じて、非クリティカル画像領域を選択的に抑制し、生成的インペイントにより受信側で欠落したコンテンツを復元する。
どちらの設計も非対称な送信受信アーキテクチャに従っており、エッジで軽量な処理が行われ、計算集約的な再構築がサーバにオフロードされる。
Raspberry Pi~5では、エッジサイドの処理時間はMMSDで約15秒、SAMRで9秒である。
実験の結果, MMSDは99%, SAMRは99.1%, 平均送信データ削減率は99%であった。
さらに、MMSDは最近のSPICベースラインよりも低いペイロードサイズを実現し、強いセマンティック一貫性を維持しているのに対し、SAMRは同等の操作条件下でのJPEGやSQ-GANよりも高品質な圧縮トレードオフを提供する。
関連論文リスト
- Extremely low-bitrate Image Compression Semantically Disentangled by LMMs from a Human Perception Perspective [12.321609213934389]
人間のプログレッシブ・コンプレッション・メカニズムにインスパイアされたセマンティック・ディスタングル・イメージ・圧縮フレームワークを提案する。
我々はLMMを利用して、全体記述、オブジェクト詳細記述、セマンティックセグメンテーションマスクを含む重要なセマンティックコンポーネントを抽出する。
本研究では,事前学習したControlNet上に構築され,オブジェクトレベルのテキスト記述やセマンティックマスクによって条件付けられたオブジェクトの詳細を復元する,注意誘導型オブジェクト復元モデルを提案する。
論文 参考訳(メタデータ) (2025-03-01T08:27:11Z) - SQ-GAN: Semantic Image Communications Using Masked Vector Quantization [54.35918290143049]
本研究はSQ-GAN(Semantically Masked Vector Quantized Generative Adversarial Network)を紹介する。
これは、セマンティック駆動画像符号化とベクトル量子化を統合して、セマンティック/タスク指向通信のための画像圧縮を最適化する新しいアプローチである。
SQ-GANはJPEG2000、BPG、ディープラーニングベースの手法など、最先端の画像圧縮方式よりも優れています。
論文 参考訳(メタデータ) (2025-02-13T17:35:57Z) - Semantic Alignment and Reinforcement for Data-Free Quantization of Vision Transformers [58.80845404416028]
データフリー量子化(DFQ)は、実際のデータにアクセスせずにモデル量子化を可能にし、データのセキュリティとプライバシに関する懸念に対処する。
ビジョントランスフォーマー(ViTs)の普及に伴い、ViTsのDFQは大きな注目を集めている。
本稿では,新しいセマンティックアライメントと強化データ自由化手法であるSARDFQを提案する。
論文 参考訳(メタデータ) (2024-12-21T09:30:45Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。