Fugu-MT 論文翻訳(概要): Are Large Pre-trained Vision Language Models Effective Construction Safety Inspectors?

論文の概要: Are Large Pre-trained Vision Language Models Effective Construction Safety Inspectors?

arxiv url: http://arxiv.org/abs/2508.11011v1
Date: Thu, 14 Aug 2025 18:23:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-18 14:51:23.641953
Title: Are Large Pre-trained Vision Language Models Effective Construction Safety Inspectors?
Title（参考訳）: 大規模事前学習型視覚言語モデルは建設安全検査機に有効か?
Authors: Xuezheng Chen, Zhengbo Zou,
Abstract要約: 建設安全検査は通常、人間の検査官が現場で安全上の懸念を識別する。強力なビジョン言語モデル(VLM)の台頭に伴い、研究者は、現場画像から安全規則違反を検出するなどのタスクに使用することを模索している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Construction safety inspections typically involve a human inspector identifying safety concerns on-site. With the rise of powerful Vision Language Models (VLMs), researchers are exploring their use for tasks such as detecting safety rule violations from on-site images. However, there is a lack of open datasets to comprehensively evaluate and further fine-tune VLMs in construction safety inspection. Current applications of VLMs use small, supervised datasets, limiting their applicability in tasks they are not directly trained for. In this paper, we propose the ConstructionSite 10k, featuring 10,000 construction site images with annotations for three inter-connected tasks, including image captioning, safety rule violation visual question answering (VQA), and construction element visual grounding. Our subsequent evaluation of current state-of-the-art large pre-trained VLMs shows notable generalization abilities in zero-shot and few-shot settings, while additional training is needed to make them applicable to actual construction sites. This dataset allows researchers to train and evaluate their own VLMs with new architectures and techniques, providing a valuable benchmark for construction safety inspection.
Abstract（参考訳）: 建設安全検査は通常、人間の検査官が現場で安全上の懸念を識別する。強力なビジョン言語モデル(VLM)の台頭に伴い、研究者は、現場画像から安全規則違反を検出するなどのタスクに使用することを模索している。しかし、建設安全検査において、VLMを総合的に評価し、さらに微調整するオープンデータセットが欠如している。 VLMの現在のアプリケーションは、小さくて教師付きデータセットを使用しており、直接訓練されていないタスクに適用性を制限する。本稿では、画像キャプション、安全規則違反視覚質問応答(VQA)、建設要素の視覚的接地を含む3つのタスクにアノテーションを付加した1万個の建設現場画像を特徴付けるコンストラクトサイト10kを提案する。現状の大型VLMの今後の評価では, ゼロショット, 少数ショット設定で顕著な一般化能力を示し, 実際の建設現場に適用するための追加の訓練が必要である。このデータセットは、研究者が新しいアーキテクチャとテクニックで独自のVLMをトレーニングし、評価することを可能にし、建設安全検査のための貴重なベンチマークを提供する。

関連論文リスト

Response Wide Shut? Surprising Observations in Basic Vision Language Model Capabilities [54.94982467313341]
視覚言語モデル(VLM)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。我々は、設計のどのコンポーネントが欠落しているかを調査する一連のテストを構築することで、基本的な視覚的タスクにおけるSoTA VLMの限界を理解することにしました。
論文参考訳（メタデータ） (2025-07-10T15:26:41Z)
AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions [76.74726258534142]
本稿では,有害な指示を受けるVLMエージェントの安全性を評価するための最初のベンチマークであるProgentSAFEを提案する。 AgentSAFEはシミュレーションサンドボックス内の現実的なエージェントと環境の相互作用をシミュレートする。ベンチマークには、45の敵シナリオ、1,350の有害なタスク、8,100の有害な命令が含まれます。
論文参考訳（メタデータ） (2025-06-17T16:37:35Z)
SafeCOMM: What about Safety Alignment in Fine-Tuned Telecom Large Language Models? [74.5407418382515]
テレコムタスクとデータセットのための細調整された大型言語モデル(LLM)は、汎用モデルをテレコムドメインに適応させる一般的なプラクティスである。近年の研究では、良質な微調整でさえLLMの安全性を低下させ、有害なユーザークエリや非倫理的なユーザクエリに応答させることが示されている。
論文参考訳（メタデータ） (2025-05-29T13:31:51Z)
More Clear, More Flexible, More Precise: A Comprehensive Oriented Object Detection benchmark for UAV [58.89234732689013]
CODroneは、現実の状況を正確に反映した、UAVのための包括的なオブジェクト指向オブジェクト検出データセットである。また、下流のタスク要求に合わせて設計された新しいベンチマークとしても機能する。我々は、CODroneを厳格に評価するために、22の古典的またはSOTA法に基づく一連の実験を行う。
論文参考訳（メタデータ） (2025-04-28T17:56:02Z)
Using Vision Language Models for Safety Hazard Identification in Construction [1.2343292905447238]
本稿では,建設リスクの同定のための視覚言語モデル(VLM)に基づくフレームワークを提案し,実験的に検証した。 GPT-4o, Gemini, Llama 3.2, InternVL2を含む最先端のVLMを1100の建設現場画像のカスタムデータセットを用いて評価した。
論文参考訳（メタデータ） (2025-04-12T05:11:23Z)
Construction Site Scaffolding Completeness Detection Based on Mask R-CNN and Hough Transform [2.7309692684728617]
本稿では,コンピュータビジョンを用いた足場とその横断ブラス検出のための深層学習に基づくアプローチを提案する。注釈付きラベル付き足場画像データセットを使用して、畳み込みニューラルネットワーク(CNN)モデルをトレーニングする。
論文参考訳（メタデータ） (2025-03-18T20:27:22Z)
AR-Facilitated Safety Inspection and Fall Hazard Detection on Construction Sites [17.943278018516416]
我々は,高層建設現場の安全検査を容易にするために,ヘッドマウント型拡張現実の可能性を探っている。業界で特に懸念されているのは、人や物体の落下を防ぐために、高いレベルの建設現場で、周囲の安全画面を検査することである。我々は,安全画面のどの部分が検査されたかを追跡することで,この検査作業を支援することを目的とする。機械学習を用いて、近距離検査と修復を必要とする周辺スクリーンのギャップを自動的に検出し、レポートを自動化する。
論文参考訳（メタデータ） (2024-12-02T08:38:43Z)
A Deep Learning Approach to Detect Complete Safety Equipment For Construction Workers Based On YOLOv7 [0.0]
本研究では,建設作業員が着用する安全装置を同定する深層学習技術を提案する。推奨されるアプローチは、YOLO v7オブジェクト検出アルゴリズムを使用して、これらの安全アイテムを正確に検出する。トレーニングされたモデルでは,安全機器認識のための精度,リコール,F1スコアが良好に動作した。
論文参考訳（メタデータ） (2024-06-11T20:38:41Z)
Uncovering the Inner Workings of STEGO for Safe Unsupervised Semantic Segmentation [68.8204255655161]
近年,コンピュータビジョンにおける汎用的特徴抽出バックボーンのトレーニングにおいて,自己指導型事前学習戦略が顕著な成果を上げている。 DINOの自己蒸留技術は、暗黙のラベルを使わずに、潜在空間における教師なしクラスタリングや生成した特徴の意味的対応など、興味深い特徴を持っている。教師なしセマンティックセグメンテーションコントラストのSTEGO法は、DINO-pre-trained Vision Transformerの特徴対応を蒸留し、最近その新しい状態を設定した。
論文参考訳（メタデータ） (2023-04-14T15:30:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。