論文の概要: Autonomous Construction-Site Safety Inspection Using Mobile Robots: A Multilayer VLM-LLM Pipeline
- arxiv url: http://arxiv.org/abs/2512.13974v1
- Date: Tue, 16 Dec 2025 00:25:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.365182
- Title: Autonomous Construction-Site Safety Inspection Using Mobile Robots: A Multilayer VLM-LLM Pipeline
- Title(参考訳): 移動ロボットを用いた自律型建設現場安全検査:多層VLM-LLMパイプライン
- Authors: Hossein Naderi, Alireza Shojaei, Philip Agee, Kereshmeh Afsari, Abiola Akanmu,
- Abstract要約: 本稿では,自律走行中にロボットが見るものと,建設現場で一般的な安全基準を結びつけることを目的とする。
ロボティクスの面では、SLAMと自律ナビゲーションは、経路ポイントを介して繰り返しカバレッジとターゲットのリビジョンを提供する。
AI側では、ビジョン言語モデル(VLM)ベースのレイヤがシーン記述を生成する。
他のVLMベースのレイヤはルールに基づいて安全性を評価し、最後にLLM(Large Language Model)レイヤは以前の出力に基づいて安全性レポートを生成する。
- 参考スコア(独自算出の注目度): 2.9360071145551068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Construction safety inspection remains mostly manual, and automated approaches still rely on task-specific datasets that are hard to maintain in fast-changing construction environments due to frequent retraining. Meanwhile, field inspection with robots still depends on human teleoperation and manual reporting, which are labor-intensive. This paper aims to connect what a robot sees during autonomous navigation to the safety rules that are common in construction sites, automatically generating a safety inspection report. To this end, we proposed a multi-layer framework with two main modules: robotics and AI. On the robotics side, SLAM and autonomous navigation provide repeatable coverage and targeted revisits via waypoints. On AI side, a Vision Language Model (VLM)-based layer produces scene descriptions; a retrieval component powered grounds those descriptions in OSHA and site policies; Another VLM-based layer assesses the safety situation based on rules; and finally Large Language Model (LLM) layer generates safety reports based on previous outputs. The framework is validated with a proof-of-concept implementation and evaluated in a lab environment that simulates common hazards across three scenarios. Results show high recall with competitive precision compared to state-of-the-art closed-source models. This paper contributes a transparent, generalizable pipeline that moves beyond black-box models by exposing intermediate artifacts from each layer and keeping the human in the loop. This work provides a foundation for future extensions to additional tasks and settings within and beyond construction context.
- Abstract(参考訳): 建設安全検査は主に手作業で行われており、自動化されたアプローチは、頻繁な再トレーニングのために、高速に変化する建設環境においてメンテナンスが難しいタスク固有のデータセットに依存している。
一方、ロボットによるフィールドインスペクションは、労働集約的な人間の遠隔操作と手動による報告に依存している。
本稿では,自律走行中にロボットが見るものと建設現場で共通する安全基準を結びつけることを目的として,安全検査レポートを自動生成する。
この目的のために,ロボット工学とAIという2つの主要モジュールを持つ多層フレームワークを提案した。
ロボティクスの面では、SLAMと自律ナビゲーションは、経路ポイントを介して繰り返しカバレッジとターゲットのリビジョンを提供する。
AI側では、VLM(Vision Language Model)ベースのレイヤがシーン記述を生成し、検索コンポーネントがOSHAとサイトポリシにこれらの記述を基盤として、VLMベースの別のレイヤがルールに基づいて安全状況を評価し、最終的にLarge Language Model(LLM)層が以前の出力に基づいて安全レポートを生成する。
このフレームワークは概念実証実装で検証され、3つのシナリオにまたがる共通のハザードをシミュレートするラボ環境で評価される。
その結果,最先端のクローズドソースモデルと比較して,競合精度の高いリコールが得られた。
本論文は, 各層から中間成果物を露光し, 人体をループ内に保持することにより, ブラックボックスモデルを超えて, 透明で一般化可能なパイプラインを提供する。
この作業は、建設コンテキスト内およびそれ以上のタスクや設定を追加するための将来の拡張のための基盤を提供する。
関連論文リスト
- AgenticLab: A Real-World Robot Agent Platform that Can See, Think, and Act [27.922630781100864]
本稿では,モデルに依存しないロボットエージェントプラットフォームであるAgenticLabと,オープンワールド操作のためのベンチマークについて紹介する。
我々は、非構造環境における実ロボットタスクに最先端のVLMベースのエージェントをベンチマークする。
私たちのベンチマークでは、オフラインの視覚言語テストがキャプチャーに失敗するいくつかの障害モードが明らかになっている。
論文 参考訳(メタデータ) (2026-02-02T05:30:14Z) - SMc2f: Robust Scenario Mining for Robotic Autonomy from Coarse to Fine [8.662817298688147]
RefAVは、大きな言語モデル(LLM)を使用して、空間的かつ時間的にシナリオをローカライズするエンドツーエンドフレームワークである。
SMc2fは、粗い画像テキストフィルタリングに視覚言語モデル(VLM)を使用するパイプラインである。
公開データセットの実験は、検索品質と効率の両方において、かなりの向上を示している。
論文 参考訳(メタデータ) (2026-01-17T11:25:55Z) - OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows [77.95511352806261]
VLM(Vision-Language Models)を利用したコンピュータ利用エージェントは、モバイルプラットフォームのようなデジタル環境を操作する上で、人間のような能力を実証している。
我々は,明示的なシステムレベルの違反を検出するための形式検証器と,文脈的リスクとエージェント行動を評価するコンテキスト判断器を組み合わせた,新しいハイブリッド安全検出フレームワークOS-Sentinelを提案する。
論文 参考訳(メタデータ) (2025-10-28T13:22:39Z) - Constrained Decoding for Robotics Foundation Models [12.916330118607918]
本稿では,自動回帰ロボット基盤モデルのための制約付き復号化フレームワークであるSafeDecを紹介する。
タスク固有の安全ルールはSignal Temporal Logic (STL) 公式として表現され、最小限のオーバーヘッドで推論時に強制される。
提案手法は,実行時に仮定された動的条件下でのSTL仕様を,再トレーニングなしで確実に満たすものである。
論文 参考訳(メタデータ) (2025-09-01T19:17:40Z) - General-Purpose Robotic Navigation via LVLM-Orchestrated Perception, Reasoning, and Acting [5.291702442384798]
Agentic Robotic Navigation Architecture (ARNA)は、LVLMベースのエージェントに知覚、推論、ナビゲーションツールのライブラリを装備する汎用フレームワークである。
実行時にエージェントは、現代のロボットスタックから引き出されたタスク固有のナビゲーションツールを自律的に定義し、実行します。
ARNAは最先端のEQA特異的アプローチより優れている。
論文 参考訳(メタデータ) (2025-06-20T20:06:14Z) - AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions [64.85086226439954]
本稿では,有害な指示に対するVLMエージェントの安全性を評価するためのベンチマークであるSAFEを提案する。
SAFEは、SAFE−THOR、SAFE−VERSE、SAFE−DIAGNOSEの3つの成分からなる。
我々は、ハザード認識を安全な計画と実行に翻訳する体系的な失敗を明らかにする。
論文 参考訳(メタデータ) (2025-06-17T16:37:35Z) - FieldWorkArena: Agentic AI Benchmark for Real Field Work Tasks [52.47895046206854]
FieldWorkArenaは、現実世界のフィールドワークをターゲットにしたエージェントAIのベンチマークである。
本稿では、エージェントAIが現実世界の作業環境ベンチマークのために持つべき新しいアクション空間を定義する。
論文 参考訳(メタデータ) (2025-05-26T08:21:46Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。