論文の概要: Edge-Optimized Vision-Language Models for Underground Infrastructure Assessment
- arxiv url: http://arxiv.org/abs/2602.03742v1
- Date: Tue, 03 Feb 2026 17:03:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.592319
- Title: Edge-Optimized Vision-Language Models for Underground Infrastructure Assessment
- Title(参考訳): 地下インフラ評価のためのエッジ最適化ビジョンランゲージモデル
- Authors: Johny J. Lopez, Md Meftahul Ferdaus, Mahdi Abdelguerfi,
- Abstract要約: 本稿では,地下欠陥のエンドツーエンド要約のための新しい2段階パイプラインを提案する。
私たちの軽量なRAPID-SCANセグメンテーションモデルと、エッジコンピューティングプラットフォームにデプロイされた微調整されたビジョンランゲージモデルを組み合わせています。
この結果から,自動欠陥検出とインフラストラクチャ保守のための実用的な洞察とのギャップを埋めるために,エッジデプロイ可能な統合AIシステムの可能性が示唆された。
- 参考スコア(独自算出の注目度): 1.5124107808802705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous inspection of underground infrastructure, such as sewer and culvert systems, is critical to public safety and urban sustainability. Although robotic platforms equipped with visual sensors can efficiently detect structural deficiencies, the automated generation of human-readable summaries from these detections remains a significant challenge, especially on resource-constrained edge devices. This paper presents a novel two-stage pipeline for end-to-end summarization of underground deficiencies, combining our lightweight RAPID-SCAN segmentation model with a fine-tuned Vision-Language Model (VLM) deployed on an edge computing platform. The first stage employs RAPID-SCAN (Resource-Aware Pipeline Inspection and Defect Segmentation using Compact Adaptive Network), achieving 0.834 F1-score with only 0.64M parameters for efficient defect segmentation. The second stage utilizes a fine-tuned Phi-3.5 VLM that generates concise, domain-specific summaries in natural language from the segmentation outputs. We introduce a curated dataset of inspection images with manually verified descriptions for VLM fine-tuning and evaluation. To enable real-time performance, we employ post-training quantization with hardware-specific optimization, achieving significant reductions in model size and inference latency without compromising summarization quality. We deploy and evaluate our complete pipeline on a mobile robotic platform, demonstrating its effectiveness in real-world inspection scenarios. Our results show the potential of edge-deployable integrated AI systems to bridge the gap between automated defect detection and actionable insights for infrastructure maintenance, paving the way for more scalable and autonomous inspection solutions.
- Abstract(参考訳): 下水道や変圧器などの地下インフラの自律的な検査は、公共の安全と都市の持続可能性にとって重要である。
視覚センサーを備えたロボットプラットフォームは、構造的欠陥を効率的に検出できるが、これらの検出から人間の読みやすい要約の自動生成は、特に資源制約のあるエッジデバイスにおいて重要な課題である。
本稿では,我々の軽量なRAPID-SCANセグメンテーションモデルとエッジコンピューティングプラットフォーム上に展開された微調整ビジョン・ランゲージ・モデル(VLM)を組み合わせた,地下欠陥のエンドツーエンド要約のための新しい2段階パイプラインを提案する。
第1段階ではRAPID-SCAN (Resource-Aware Pipeline Inspection and Defect Segmentation using Compact Adaptive Network) を採用し、効率の良い欠陥分割のために0.64万のパラメータしか持たない0.834 F1スコアを達成した。
第2段階は、セグメンテーション出力から自然言語の簡潔でドメイン固有の要約を生成する、微調整されたPhi-3.5 VLMを使用する。
VLMファインチューニングと評価のための手動検証による検査画像のキュレートデータセットを提案する。
実時間性能を実現するために、ハードウェア固有の最適化による後学習量子化を採用し、要約品質を損なうことなく、モデルサイズと推論遅延の大幅な削減を実現した。
我々は,実世界の検査シナリオにおいて,完全なパイプラインをモバイルロボットプラットフォーム上に展開し,その有効性を実証する。
我々の結果は、自動化された欠陥検出とインフラストラクチャのメンテナンスのための実行可能な洞察のギャップを埋め、よりスケーラブルで自律的な検査ソリューションへの道を開くために、エッジデプロイ可能な統合AIシステムの可能性を示している。
関連論文リスト
- AI-Based Culvert-Sewer Inspection [0.0]
カルバートと下水道管は排水システムの重要な構成要素であり、その故障は公共の安全と環境に深刻なリスクをもたらす可能性がある。
この論文では、欠陥セグメント化を大幅に強化し、データの不足を処理する3つの方法を提案する。
ForTRESSは、奥行き分離可能な畳み込み、適応型コルモゴロフ・アルノルドネットワーク(KAN)、マルチスケールアテンション機構を組み合わせた新しいアーキテクチャである。
論文 参考訳(メタデータ) (2026-01-21T16:33:33Z) - Real-Time Detection and Tracking of Foreign Object Intrusions in Power Systems via Feature-Based Edge Intelligence [4.60587070358843]
本稿では,電力伝送システムにおけるリアルタイム異物侵入(FOI)検出と追跡のための新しい枠組みを提案する。
本フレームワークは,(1)高速で堅牢なオブジェクトローカライゼーションのためのYOLOv7セグメンテーションモデル,(2)三重項損失を訓練したConvNeXtベースの特徴抽出器,(3)特徴支援IoUトラッカーを統合した。
スケーラブルなフィールドデプロイメントを実現するため、パイプラインは、混合精度推論を使用して、低コストのエッジハードウェアへのデプロイメントに最適化されている。
論文 参考訳(メタデータ) (2025-09-16T17:17:03Z) - Edge-Based Multimodal Sensor Data Fusion with Vision Language Models (VLMs) for Real-time Autonomous Vehicle Accident Avoidance [12.513296074529727]
本稿では,自律走行のためのリアルタイムエッジベース自律走行軌道プランナ(REACT)を提案する。
REACTは、微調整軽量ビジョンランゲージモデル(VLM)に基づくADのためのV2X統合軌道最適化フレームワークである。
DeepAccidentベンチマークで評価されたREACTは、最先端の性能、77%の衝突率の低減、48.2%のビデオパノプティクス品質(VPQ)、およびJetson AGX Orinでの0.57秒の推論遅延を実現している。
論文 参考訳(メタデータ) (2025-08-01T20:16:04Z) - Towards Edge-Based Idle State Detection in Construction Machinery Using Surveillance Cameras [0.0]
未使用の建設機械は、運用コストとプロジェクト遅延を増大させる。
本稿では, アイドル機械検出のためのエッジIMIフレームワークを提案する。
提案手法は,オブジェクト検出,トラッキング,アイドル状態同定という3つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-06-01T08:43:33Z) - VAE-based Feature Disentanglement for Data Augmentation and Compression in Generalized GNSS Interference Classification [42.14439854721613]
干渉の正確な分類を可能にする重要な潜伏特徴を抽出するために, アンタングル化のための変分オートエンコーダ (VAE) を提案する。
提案するVAEは512から8,192の範囲のデータ圧縮率を実現し,99.92%の精度を実現している。
論文 参考訳(メタデータ) (2025-04-14T13:38:00Z) - Prior2Former -- Evidential Modeling of Mask Transformers for Assumption-Free Open-World Panoptic Segmentation [74.55677741919035]
顕在学習に根ざしたセグメンテーション・ビジョン・トランスフォーマの最初のアプローチである Prefer2Former (P2F) を提案する。
P2Fは、ピクセル単位のバイナリマスク割り当てにおいて、モデル不確実性を計算するためのベータを組み込むことで、マスクビジョントランスフォーマーアーキテクチャを拡張している。
未知のクラスに対処するほとんどのセグメンテーションモデルとは異なり、P2FはOODデータサンプルへのアクセスや、ヴォイド(ラベルなし)クラスに対する対照的なトレーニングなしで動作する。
論文 参考訳(メタデータ) (2025-04-07T08:53:14Z) - Efficient Detection Framework Adaptation for Edge Computing: A Plug-and-play Neural Network Toolbox Enabling Edge Deployment [59.61554561979589]
エッジコンピューティングは、時間に敏感なシナリオでディープラーニングベースのオブジェクト検出をデプロイするための重要なパラダイムとして登場した。
既存のエッジ検出手法では、軽量モデルによる検出精度のバランスの難しさ、適応性の制限、現実の検証の不十分といった課題に直面している。
本稿では,汎用的なプラグイン・アンド・プレイコンポーネントを用いてエッジ環境にオブジェクト検出モデルを適用するエッジ検出ツールボックス(ED-TOOLBOX)を提案する。
論文 参考訳(メタデータ) (2024-12-24T07:28:10Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - PCF-Lift: Panoptic Lifting by Probabilistic Contrastive Fusion [80.79938369319152]
我々は,PCF(Probabilis-tic Contrastive Fusion)に基づくPCF-Liftという新しいパイプラインを設計する。
私たちのPCFリフトは、ScanNetデータセットやMessy Roomデータセット(シーンレベルのPQが4.4%改善)など、広く使用されているベンチマークにおいて、最先端の手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T16:06:59Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - Risk-Averse MPC via Visual-Inertial Input and Recurrent Networks for
Online Collision Avoidance [95.86944752753564]
本稿では,モデル予測制御(MPC)の定式化を拡張したオンライン経路計画アーキテクチャを提案する。
我々のアルゴリズムは、状態推定の共分散を推論するリカレントニューラルネットワーク(RNN)とオブジェクト検出パイプラインを組み合わせる。
本手法のロバスト性は, 複雑な四足歩行ロボットの力学で検証され, ほとんどのロボットプラットフォームに適用可能である。
論文 参考訳(メタデータ) (2020-07-28T07:34:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。