論文の概要: Semantic Edge-Cloud Communication for Real-Time Urban Traffic Surveillance with ViT and LLMs over Mobile Networks
- arxiv url: http://arxiv.org/abs/2509.21259v1
- Date: Thu, 25 Sep 2025 14:53:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.997298
- Title: Semantic Edge-Cloud Communication for Real-Time Urban Traffic Surveillance with ViT and LLMs over Mobile Networks
- Title(参考訳): モバイルネットワークを用いた実時間都市交通サーベイランスのためのセマンティックエッジクラウド通信
- Authors: Murat Arda Onsu, Poonam Lohan, Burak Kantarci, Aisha Syed, Matthew Andrews, Sean Kennedy,
- Abstract要約: インテリジェント・トランスポーテーション・システム(ITS)にとって、道路の安全を確保し、交通の流れを最適化し、車両軌道を追跡し、スマートシティでの衝突を防止するために、リアルタイムの都市交通監視が不可欠である。
本稿では,送信オーバヘッドを大幅に低減する意味コミュニケーションフレームワークを提案する。
従来の収穫画像では93%の精度で89%のLLM応答精度を維持しながら,データ伝送サイズを99.9%削減する。
- 参考スコア(独自算出の注目度): 5.862522659881676
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Real-time urban traffic surveillance is vital for Intelligent Transportation Systems (ITS) to ensure road safety, optimize traffic flow, track vehicle trajectories, and prevent collisions in smart cities. Deploying edge cameras across urban environments is a standard practice for monitoring road conditions. However, integrating these with intelligent models requires a robust understanding of dynamic traffic scenarios and a responsive interface for user interaction. Although multimodal Large Language Models (LLMs) can interpret traffic images and generate informative responses, their deployment on edge devices is infeasible due to high computational demands. Therefore, LLM inference must occur on the cloud, necessitating visual data transmission from edge to cloud, a process hindered by limited bandwidth, leading to potential delays that compromise real-time performance. To address this challenge, we propose a semantic communication framework that significantly reduces transmission overhead. Our method involves detecting Regions of Interest (RoIs) using YOLOv11, cropping relevant image segments, and converting them into compact embedding vectors using a Vision Transformer (ViT). These embeddings are then transmitted to the cloud, where an image decoder reconstructs the cropped images. The reconstructed images are processed by a multimodal LLM to generate traffic condition descriptions. This approach achieves a 99.9% reduction in data transmission size while maintaining an LLM response accuracy of 89% for reconstructed cropped images, compared to 93% accuracy with original cropped images. Our results demonstrate the efficiency and practicality of ViT and LLM-assisted edge-cloud semantic communication for real-time traffic surveillance.
- Abstract(参考訳): インテリジェント・トランスポーテーション・システム(ITS)にとって、道路の安全を確保し、交通の流れを最適化し、車両軌道を追跡し、スマートシティでの衝突を防止するために、リアルタイムの都市交通監視が不可欠である。
都市環境にエッジカメラを配置することは、道路状況を監視するための標準的なプラクティスである。
しかし、これらをインテリジェントモデルに統合するには、動的なトラフィックシナリオの堅牢な理解と、ユーザインタラクションのための応答性インターフェースが必要である。
マルチモーダル大規模言語モデル(LLM)は,トラフィックイメージを解釈し,情報応答を生成することができるが,高い計算要求のためにエッジデバイスへの展開は不可能である。
したがって、LLM推論はクラウド上で発生し、エッジからクラウドへの視覚的データ転送を必要とする。
この課題に対処するために,送信オーバーヘッドを大幅に削減する意味コミュニケーションフレームワークを提案する。
本手法では、YOLOv11を用いて関心領域(RoI)を検出し、関連する画像セグメントをトリミングし、視覚変換器(ViT)を用いてコンパクトな埋め込みベクトルに変換する。
これらの埋め込みはクラウドに送信され、画像デコーダが収穫された画像を再構成する。
再構成された画像はマルチモーダルLCMにより処理され、交通条件記述を生成する。
従来の収穫画像では93%の精度で89%のLLM応答精度を維持しながら,データ伝送サイズを99.9%削減する。
この結果から,リアルタイム交通監視のためのViTとLLMを用いたエッジクラウドセマンティック通信の効率性と実用性を示した。
関連論文リスト
- When language and vision meet road safety: leveraging multimodal large language models for video-based traffic accident analysis [6.213279061986497]
SeeUnsafeは、ビデオベースの交通事故分析を、よりインタラクティブで対話的なアプローチに変換するフレームワークである。
本フレームワークでは,様々な長さの動画をマルチモーダル・アグリゲーション・ストラテジーで処理し,レビューと評価のために構造化された応答を生成する。
本研究では,トヨタウーブン交通安全データセットについて広範な実験を行い,SeeUnsafeが事故対応ビデオ分類と視覚的グラウンド化を効果的に実施できることを実証した。
論文 参考訳(メタデータ) (2025-01-17T23:35:34Z) - Towards Multi-agent Reinforcement Learning based Traffic Signal Control through Spatio-temporal Hypergraphs [19.107744041461316]
交通信号システム(TSCS)は、効率的な車両の流れを育むインテリジェントな交通管理に不可欠である。
本稿では,インテリジェントトラフィックエッジネットワークを実現するための新しいTSCSフレームワークを提案する。
我々は,マルチエージェントソフトアクター・クリニック(MA-SAC)強化学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-04-17T02:46:18Z) - Elastic Interaction Energy-Informed Real-Time Traffic Scene Perception [8.429178814528617]
EIEGSegという名前のトポロジ対応エネルギー損失関数に基づくネットワークトレーニング戦略を提案する。
EIEGSegは、リアルタイムの交通シーン認識におけるマルチクラスセグメンテーションのために設計されている。
以上の結果から,EIEGSegは,特にリアルタイム軽量ネットワークにおいて,性能を継続的に向上することを示す。
論文 参考訳(メタデータ) (2023-10-02T01:30:42Z) - Alignment-free HDR Deghosting with Semantics Consistent Transformer [76.91669741684173]
高ダイナミックレンジイメージングは、複数の低ダイナミックレンジ入力から情報を取得し、リアルな出力を生成することを目的としている。
既存の手法では、前景やカメラの動きによって引き起こされる入力フレーム間の空間的ずれに焦点を当てることが多い。
本研究では,SCTNet(Semantics Consistent Transformer)を用いたアライメントフリーネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:03:23Z) - Road Network Guided Fine-Grained Urban Traffic Flow Inference [108.64631590347352]
粗いトラフィックからのきめ細かなトラフィックフローの正確な推測は、新たな重要な問題である。
本稿では,道路ネットワークの知識を活かした新しい道路対応交通流磁化器(RATFM)を提案する。
提案手法は,高品質なトラフィックフローマップを作成できる。
論文 参考訳(メタデータ) (2021-09-29T07:51:49Z) - Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文 参考訳(メタデータ) (2021-04-19T11:48:13Z) - Learning dynamic and hierarchical traffic spatiotemporal features with
Transformer [4.506591024152763]
本稿では,空間時間グラフモデリングと長期交通予測のための新しいモデルであるTraffic Transformerを提案する。
Transformerは自然言語処理(NLP)で最も人気のあるフレームワークです。
注目重量行列を解析すれば 道路網の 影響力のある部分を見つけられる 交通網をよりよく学べる
論文 参考訳(メタデータ) (2021-04-12T02:29:58Z) - Deep traffic light detection by overlaying synthetic context on
arbitrary natural images [49.592798832978296]
深部交通光検出器のための人工的な交通関連トレーニングデータを生成する手法を提案する。
このデータは、任意の画像背景の上に偽のトラフィックシーンをブレンドするために、基本的な非現実的なコンピュータグラフィックスを用いて生成される。
また、交通信号データセットの本質的なデータ不均衡問題にも対処し、主に黄色い状態のサンプルの少なさによって引き起こされる。
論文 参考訳(メタデータ) (2020-11-07T19:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。