論文の概要: Are Large Pre-trained Vision Language Models Effective Construction Safety Inspectors?
- arxiv url: http://arxiv.org/abs/2508.11011v1
- Date: Thu, 14 Aug 2025 18:23:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.641953
- Title: Are Large Pre-trained Vision Language Models Effective Construction Safety Inspectors?
- Title(参考訳): 大規模事前学習型視覚言語モデルは建設安全検査機に有効か?
- Authors: Xuezheng Chen, Zhengbo Zou,
- Abstract要約: 建設安全検査は通常、人間の検査官が現場で安全上の懸念を識別する。
強力なビジョン言語モデル(VLM)の台頭に伴い、研究者は、現場画像から安全規則違反を検出するなどのタスクに使用することを模索している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Construction safety inspections typically involve a human inspector identifying safety concerns on-site. With the rise of powerful Vision Language Models (VLMs), researchers are exploring their use for tasks such as detecting safety rule violations from on-site images. However, there is a lack of open datasets to comprehensively evaluate and further fine-tune VLMs in construction safety inspection. Current applications of VLMs use small, supervised datasets, limiting their applicability in tasks they are not directly trained for. In this paper, we propose the ConstructionSite 10k, featuring 10,000 construction site images with annotations for three inter-connected tasks, including image captioning, safety rule violation visual question answering (VQA), and construction element visual grounding. Our subsequent evaluation of current state-of-the-art large pre-trained VLMs shows notable generalization abilities in zero-shot and few-shot settings, while additional training is needed to make them applicable to actual construction sites. This dataset allows researchers to train and evaluate their own VLMs with new architectures and techniques, providing a valuable benchmark for construction safety inspection.
- Abstract(参考訳): 建設安全検査は通常、人間の検査官が現場で安全上の懸念を識別する。
強力なビジョン言語モデル(VLM)の台頭に伴い、研究者は、現場画像から安全規則違反を検出するなどのタスクに使用することを模索している。
しかし、建設安全検査において、VLMを総合的に評価し、さらに微調整するオープンデータセットが欠如している。
VLMの現在のアプリケーションは、小さくて教師付きデータセットを使用しており、直接訓練されていないタスクに適用性を制限する。
本稿では、画像キャプション、安全規則違反視覚質問応答(VQA)、建設要素の視覚的接地を含む3つのタスクにアノテーションを付加した1万個の建設現場画像を特徴付けるコンストラクトサイト10kを提案する。
現状の大型VLMの今後の評価では, ゼロショット, 少数ショット設定で顕著な一般化能力を示し, 実際の建設現場に適用するための追加の訓練が必要である。
このデータセットは、研究者が新しいアーキテクチャとテクニックで独自のVLMをトレーニングし、評価することを可能にし、建設安全検査のための貴重なベンチマークを提供する。
関連論文リスト
- Toward Autonomous Laboratory Safety Monitoring with Vision Language Models: Learning to See Hazards Through Scene Structure [26.434430112145137]
実験室は軽微な不安全行為によって重傷を負う傾向がある。
継続的な安全監視は 人間の可用性によって制限されます
ビジョン言語モデル(VLM)は、自律的な実験室の安全監視を約束する。
論文 参考訳(メタデータ) (2026-01-31T00:08:41Z) - Toward Automatic Safe Driving Instruction: A Large-Scale Vision Language Model Approach [45.45569862912077]
大規模視覚言語モデル(LVLM)は、オブジェクト検出を含む視覚情報を必要とするタスクにおいて高度な機能を示す。
本研究では,LVLMをモデルとして構築し,その性能を評価することにより,LVLMの能力について検討する。
実験の結果,事前学習したLVLMは有効性に乏しいが,微調整したLVLMは正確かつ安全に配慮した運転指示を生成できることがわかった。
論文 参考訳(メタデータ) (2025-11-28T16:09:36Z) - AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios [64.51320327698231]
UAVシナリオにおける最初の大規模RMOTベンチマークであるAerialMindを紹介する。
我々は、革新的な半自動協調型エージェントベースラベリングアシスタントフレームワークを開発した。
また,視覚言語表現学習を協調的に強化する新しい手法であるHawkEyeTrackを提案する。
論文 参考訳(メタデータ) (2025-11-26T04:44:27Z) - HomeSafeBench: A Benchmark for Embodied Vision-Language Models in Free-Exploration Home Safety Inspection [45.2338049870908]
身体的エージェントは、家庭環境における安全上の危険を識別し報告することができる。
既存のベンチマークには2つの重要な制限がある。
HomeSafeBenchは、一般的な5つのホームセーフティーハザードをカバーする12,900のデータポイントを持つベンチマークである。
論文 参考訳(メタデータ) (2025-09-28T07:01:27Z) - Safety Assessment of Scaffolding on Construction Site using AI [0.0]
本稿では,足場検査の精度を高めるため,人工知能(AI)とデジタル化の利用について検討する。
クラウドベースのAIプラットフォームは、足場構造のポイントクラウドデータを処理するために開発されている。
論文 参考訳(メタデータ) (2025-09-22T14:43:20Z) - Response Wide Shut? Surprising Observations in Basic Vision Language Model Capabilities [54.94982467313341]
視覚言語モデル(VLM)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
我々は、設計のどのコンポーネントが欠落しているかを調査する一連のテストを構築することで、基本的な視覚的タスクにおけるSoTA VLMの限界を理解することにしました。
論文 参考訳(メタデータ) (2025-07-10T15:26:41Z) - AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions [76.74726258534142]
本稿では,有害な指示を受けるVLMエージェントの安全性を評価するための最初のベンチマークであるProgentSAFEを提案する。
AgentSAFEはシミュレーションサンドボックス内の現実的なエージェントと環境の相互作用をシミュレートする。
ベンチマークには、45の敵シナリオ、1,350の有害なタスク、8,100の有害な命令が含まれます。
論文 参考訳(メタデータ) (2025-06-17T16:37:35Z) - SafeCOMM: What about Safety Alignment in Fine-Tuned Telecom Large Language Models? [74.5407418382515]
テレコムタスクとデータセットのための細調整された大型言語モデル(LLM)は、汎用モデルをテレコムドメインに適応させる一般的なプラクティスである。
近年の研究では、良質な微調整でさえLLMの安全性を低下させ、有害なユーザークエリや非倫理的なユーザクエリに応答させることが示されている。
論文 参考訳(メタデータ) (2025-05-29T13:31:51Z) - More Clear, More Flexible, More Precise: A Comprehensive Oriented Object Detection benchmark for UAV [58.89234732689013]
CODroneは、現実の状況を正確に反映した、UAVのための包括的なオブジェクト指向オブジェクト検出データセットである。
また、下流のタスク要求に合わせて設計された新しいベンチマークとしても機能する。
我々は、CODroneを厳格に評価するために、22の古典的またはSOTA法に基づく一連の実験を行う。
論文 参考訳(メタデータ) (2025-04-28T17:56:02Z) - Using Vision Language Models for Safety Hazard Identification in Construction [1.2343292905447238]
本稿では,建設リスクの同定のための視覚言語モデル(VLM)に基づくフレームワークを提案し,実験的に検証した。
GPT-4o, Gemini, Llama 3.2, InternVL2を含む最先端のVLMを1100の建設現場画像のカスタムデータセットを用いて評価した。
論文 参考訳(メタデータ) (2025-04-12T05:11:23Z) - Construction Site Scaffolding Completeness Detection Based on Mask R-CNN and Hough Transform [2.7309692684728617]
本稿では,コンピュータビジョンを用いた足場とその横断ブラス検出のための深層学習に基づくアプローチを提案する。
注釈付きラベル付き足場画像データセットを使用して、畳み込みニューラルネットワーク(CNN)モデルをトレーニングする。
論文 参考訳(メタデータ) (2025-03-18T20:27:22Z) - AR-Facilitated Safety Inspection and Fall Hazard Detection on Construction Sites [17.943278018516416]
我々は,高層建設現場の安全検査を容易にするために,ヘッドマウント型拡張現実の可能性を探っている。
業界で特に懸念されているのは、人や物体の落下を防ぐために、高いレベルの建設現場で、周囲の安全画面を検査することである。
我々は,安全画面のどの部分が検査されたかを追跡することで,この検査作業を支援することを目的とする。
機械学習を用いて、近距離検査と修復を必要とする周辺スクリーンのギャップを自動的に検出し、レポートを自動化する。
論文 参考訳(メタデータ) (2024-12-02T08:38:43Z) - A Deep Learning Approach to Detect Complete Safety Equipment For Construction Workers Based On YOLOv7 [0.0]
本研究では,建設作業員が着用する安全装置を同定する深層学習技術を提案する。
推奨されるアプローチは、YOLO v7オブジェクト検出アルゴリズムを使用して、これらの安全アイテムを正確に検出する。
トレーニングされたモデルでは,安全機器認識のための精度,リコール,F1スコアが良好に動作した。
論文 参考訳(メタデータ) (2024-06-11T20:38:41Z) - Uncovering the Inner Workings of STEGO for Safe Unsupervised Semantic
Segmentation [68.8204255655161]
近年,コンピュータビジョンにおける汎用的特徴抽出バックボーンのトレーニングにおいて,自己指導型事前学習戦略が顕著な成果を上げている。
DINOの自己蒸留技術は、暗黙のラベルを使わずに、潜在空間における教師なしクラスタリングや生成した特徴の意味的対応など、興味深い特徴を持っている。
教師なしセマンティックセグメンテーションコントラストのSTEGO法は、DINO-pre-trained Vision Transformerの特徴対応を蒸留し、最近その新しい状態を設定した。
論文 参考訳(メタデータ) (2023-04-14T15:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。