論文の概要: InfraGPT Smart Infrastructure: An End-to-End VLM-Based Framework for Detecting and Managing Urban Defects
- arxiv url: http://arxiv.org/abs/2510.16017v1
- Date: Wed, 15 Oct 2025 11:27:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.775765
- Title: InfraGPT Smart Infrastructure: An End-to-End VLM-Based Framework for Detecting and Managing Urban Defects
- Title(参考訳): InfraGPTスマートインフラストラクチャ: 都市欠陥の検出と管理のためのエンドツーエンドVLMベースのフレームワーク
- Authors: Ibrahim Sheikh Mohamed, Abdullah Yahya Abdullah Omaisan,
- Abstract要約: スマートシティのインフラは、クローズド・サーキット・テレビ(CCTV)カメラのネットワークによって監視されている。道路、橋、トンネルはひび割れ、穴、流体漏れを発生させ、公共の安全を脅かし、タイムリーな修理を必要としている。
本稿では, オブジェクト検出のYOLOファミリを用いたマルチ欠陥検出とセグメント化のために, ストリートストリームを利用した包括的パイプラインを提案し, その検出を視覚言語モデル(VLM)に渡して, 要約を意識する。
VLMは、インシデント記述、推奨ツール、寸法、修理計画、緊急警報を含む構造化されたアクションプランを生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Infrastructure in smart cities is increasingly monitored by networks of closed circuit television (CCTV) cameras. Roads, bridges and tunnels develop cracks, potholes, and fluid leaks that threaten public safety and require timely repair. Manual inspection is costly and hazardous, and existing automatic systems typically address individual defect types or provide unstructured outputs that cannot directly guide maintenance crews. This paper proposes a comprehensive pipeline that leverages street CCTV streams for multi defect detection and segmentation using the YOLO family of object detectors and passes the detections to a vision language model (VLM) for scene aware summarization. The VLM generates a structured action plan in JSON format that includes incident descriptions, recommended tools, dimensions, repair plans, and urgent alerts. We review literature on pothole, crack and leak detection, highlight recent advances in large vision language models such as QwenVL and LLaVA, and describe the design of our early prototype. Experimental evaluation on public datasets and captured CCTV clips demonstrates that the system accurately identifies diverse defects and produces coherent summaries. We conclude by discussing challenges and directions for scaling the system to city wide deployments.
- Abstract(参考訳): スマートシティのインフラは、クローズドサーキットテレビ(CCTV)カメラのネットワークによって監視されている。
道路、橋、トンネルは亀裂、穴、流体漏れを発生させ、公共の安全を脅かし、タイムリーな修理を必要としている。
手動検査は費用がかかり危険であり、既存の自動システムは通常、個々の欠陥タイプに対処するか、保守要員を直接誘導できない非構造的な出力を提供する。
本稿では, 道路CCTVストリームを多障害検出・セグメント化に利用し, オブジェクト検出のYOLOファミリを用いて, シーン認識要約のための視覚言語モデル(VLM)に渡す包括的パイプラインを提案する。
VLMは、インシデント記述、推奨ツール、ディメンション、修復計画、緊急アラートを含むJSON形式で構造化されたアクションプランを生成する。
本稿では,ポットホール,クラック,リーク検出に関する文献をレビューし,QwenVLやLLaVAといった大規模視覚言語モデルの最近の進歩に注目し,初期プロトタイプの設計について述べる。
公開データセットとキャプチャーされたCCTVクリップの実験的評価により、システムは様々な欠陥を正確に識別し、一貫性のある要約を生成することを示した。
システムを都市全体への展開に拡大する上での課題と方向性について論じる。
関連論文リスト
- Integrating Generative Adversarial Networks and Convolutional Neural Networks for Enhanced Traffic Accidents Detection and Analysis [4.174922225547306]
本研究では,事故検知システムにおける監視監視とデータ不足の問題に対処する。
この動機は、世界中の自動車事故数の統計値の上昇に起因している。
提案フレームワークは,リアルタイムの事故検出機能のために,交通安全アプリケーションに適合する。
論文 参考訳(メタデータ) (2025-06-19T10:06:20Z) - OpenLKA: an open dataset of lane keeping assist from market autonomous vehicles [23.083443555590065]
レーンキーピング・アシスト(LKA)は近年の自動車の標準機能となっている。
LKAシステムの運用特性と安全性能は未調査のままである。
フロリダ州タンパの大手自動車メーカーからLKAシステムを広範囲にテストした。
論文 参考訳(メタデータ) (2025-01-06T04:46:10Z) - CCTV-Gun: Benchmarking Handgun Detection in CCTV Images [59.24281591714385]
銃の暴力は重要なセキュリティ問題であり、コンピュータビジョンコミュニティが効果的な銃検出アルゴリズムを開発することが必須である。
実際のCCTV画像から銃を検出することは、未だに困難で未調査の課題である。
我々は,実世界のCCTV画像における拳銃検出の課題に対処するベンチマーク「textbfCCTV-Gun」を提案する。
論文 参考訳(メタデータ) (2023-03-19T16:17:35Z) - Cognitive Accident Prediction in Driving Scenes: A Multimodality
Benchmark [77.54411007883962]
本研究では,視覚的観察と運転者の注意に対する人為的な文章記述の認識を効果的に活用し,モデルトレーニングを容易にする認知事故予測手法を提案する。
CAPは、注意テキスト〜ビジョンシフト融合モジュール、注意シーンコンテキスト転送モジュール、運転注意誘導事故予測モジュールによって構成される。
我々は,1,727件の事故ビデオと219万フレーム以上の大規模ベンチマークを構築した。
論文 参考訳(メタデータ) (2022-12-19T11:43:02Z) - TAD: A Large-Scale Benchmark for Traffic Accidents Detection from Video
Surveillance [2.1076255329439304]
既存の交通事故のデータセットは小規模で、監視カメラからではなく、オープンソースではない。
様々な次元による統合とアノテーションの後に,TADという大規模交通事故データセットが提案されている。
論文 参考訳(メタデータ) (2022-09-26T03:00:50Z) - Review on Action Recognition for Accident Detection in Smart City
Transportation Systems [0.0]
異なる監視カメラを使用してスマートシティの交通の流れを監視することは、事故を認識し、最初の応答者を警告する上で重要な役割を果たす。
コンピュータビジョンタスクにおける行動認識(AR)の利用は、ビデオ監視、医療画像、デジタル信号処理における高精度な応用に寄与している。
本稿では,自動運転車や公共交通安全システムにおける事故検出システムの開発と統合に向けた研究の方向性について述べる。
論文 参考訳(メタデータ) (2022-08-20T03:21:44Z) - Contextual Information Based Anomaly Detection for a Multi-Scene UAV
Aerial Videos [0.0]
UAVに基づく監視ビデオ分析のためのコンピュータ支援システムの開発が重要である。
フレームレベルのアノテーションを用いて,UAVに基づくマルチシーン異常検出データセットを開発した。
少数の異常サンプルと通常のサンプルを併用して、より良い決定境界を同定する新しい推論戦略を提案する。
論文 参考訳(メタデータ) (2022-03-29T11:07:49Z) - Training-free Monocular 3D Event Detection System for Traffic
Surveillance [93.65240041833319]
既存のイベント検出システムは、主に学習ベースであり、大量のトレーニングデータが利用可能な場合、十分なパフォーマンスを実現している。
現実のシナリオでは、十分なラベル付きトレーニングデータの収集は高価であり、時には不可能である。
本稿では,交通監視のためのトレーニング不要な単眼3Dイベント検出システムを提案する。
論文 参考訳(メタデータ) (2020-02-01T04:42:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。