論文の概要: Using Vision Language Models for Safety Hazard Identification in Construction
- arxiv url: http://arxiv.org/abs/2504.09083v1
- Date: Sat, 12 Apr 2025 05:11:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:52:25.767098
- Title: Using Vision Language Models for Safety Hazard Identification in Construction
- Title(参考訳): 視覚言語モデルを用いた建設現場の安全ハザード同定
- Authors: Muhammad Adil, Gaang Lee, Vicente A. Gonzalez, Qipei Mei,
- Abstract要約: 本稿では,建設リスクの同定のための視覚言語モデル(VLM)に基づくフレームワークを提案し,実験的に検証した。
GPT-4o, Gemini, Llama 3.2, InternVL2を含む最先端のVLMを1100の建設現場画像のカスタムデータセットを用いて評価した。
- 参考スコア(独自算出の注目度): 1.2343292905447238
- License:
- Abstract: Safety hazard identification and prevention are the key elements of proactive safety management. Previous research has extensively explored the applications of computer vision to automatically identify hazards from image clips collected from construction sites. However, these methods struggle to identify context-specific hazards, as they focus on detecting predefined individual entities without understanding their spatial relationships and interactions. Furthermore, their limited adaptability to varying construction site guidelines and conditions hinders their generalization across different projects. These limitations reduce their ability to assess hazards in complex construction environments and adaptability to unseen risks, leading to potential safety gaps. To address these challenges, we proposed and experimentally validated a Vision Language Model (VLM)-based framework for the identification of construction hazards. The framework incorporates a prompt engineering module that structures safety guidelines into contextual queries, allowing VLM to process visual information and generate hazard assessments aligned with the regulation guide. Within this framework, we evaluated state-of-the-art VLMs, including GPT-4o, Gemini, Llama 3.2, and InternVL2, using a custom dataset of 1100 construction site images. Experimental results show that GPT-4o and Gemini 1.5 Pro outperformed alternatives and displayed promising BERTScore of 0.906 and 0.888 respectively, highlighting their ability to identify both general and context-specific hazards. However, processing times remain a significant challenge, impacting real-time feasibility. These findings offer insights into the practical deployment of VLMs for construction site hazard detection, thereby contributing to the enhancement of proactive safety management.
- Abstract(参考訳): 安全リスクの特定と予防は、積極的な安全管理の鍵となる要素である。
建設現場から収集した画像クリップから自動的にハザードを識別するコンピュータビジョンの応用について、これまで広く研究されてきた。
しかし、これらの手法は、空間的関係や相互作用を理解することなく、事前に定義された個人を検知することに集中するため、文脈特異的なハザードを特定するのに苦労する。
さらに、様々な建設現場のガイドラインや条件への適応性に制限があるため、様々なプロジェクトへの一般化が妨げられる。
これらの制限により、複雑な建設環境におけるハザードを評価する能力が低下し、見つからないリスクへの適応性が低下し、潜在的な安全性のギャップが生じる。
これらの課題に対処するために,建設リスクの同定のためのビジョン言語モデル(VLM)に基づくフレームワークを提案し,実験的に検証した。
このフレームワークには、安全ガイドラインをコンテキストクエリに構造化するプロンプトエンジニアリングモジュールが含まれており、VLMは視覚情報を処理し、規制ガイドと整合したハザードアセスメントを生成することができる。
本フレームワークでは,GPT-4o,Gemini,Llama 3.2,InternVL2といった最先端のVLMを,1100の建設現場画像のカスタムデータセットを用いて評価した。
実験の結果, GPT-4o と Gemini 1.5 Pro はそれぞれ 0.906 と 0.888 の BERTScore よりも優れており, 一般およびコンテキスト特異的なハザードを識別する能力を強調した。
しかし、処理時間は依然として大きな課題であり、リアルタイムの実現性に影響を与える。
これらの結果は,建設現場の危険度検知のためのVLMの実用的展開に関する知見を与え,積極的安全管理の強化に寄与する。
関連論文リスト
- Evaluating Cascaded Methods of Vision-Language Models for Zero-Shot Detection and Association of Hardhats for Increased Construction Safety [0.0]
本稿では、ゼロショット検出のための視覚言語モデル(VLM)と、建設安全性を高めるためのハードハットの関連性を評価する。
本研究では,実際の建設現場画像におけるハードハット検出のための基礎モデル,特にOWLv2の適用性について検討する。
論文 参考訳(メタデータ) (2024-10-16T04:42:10Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - Vision Language Model for Interpretable and Fine-grained Detection of Safety Compliance in Diverse Workplaces [5.993182776695029]
多様な職場安全コンプライアンスのための解釈可能な検出フレームワークであるClip2Safetyを紹介する。
このフレームワークは、シーン認識、視覚的プロンプト、安全アイテムの検出、きめ細かい検証の4つの主要なモジュールで構成されている。
その結果, Clip2Safetyは, 最先端の質問応答に基づくVLMよりも精度が向上するだけでなく, 推測時間も200倍高速であることがわかった。
論文 参考訳(メタデータ) (2024-08-13T18:32:06Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - The Need for Guardrails with Large Language Models in Medical Safety-Critical Settings: An Artificial Intelligence Application in the Pharmacovigilance Ecosystem [0.6965384453064829]
大規模言語モデル(LLM)は、特定の種類の知識処理を効果的にスケールする能力を備えた有用なツールである。
しかし、高リスクで安全に重要な領域への展開は、特に幻覚の問題など、ユニークな課題を生んでいる。
これは特に、不正確さが患者を傷つける可能性がある薬物の安全性のような設定に関係している。
我々は、特定の種類の幻覚と薬物安全性のエラーを軽減するために特別に設計されたガードレールのコンセプトスイートを開発し、実証した。
論文 参考訳(メタデータ) (2024-07-01T19:52:41Z) - Current state of LLM Risks and AI Guardrails [0.0]
大規模言語モデル(LLM)はますます洗練され、安全性と信頼性が最優先されるセンシティブなアプリケーションに広くデプロイされるようになる。
これらのリスクは、LSMを望ましい行動と整合させ、潜在的な害を軽減するために、"ガードレール"の開発を必要とする。
本研究は,LLMの展開に伴うリスクを調査し,ガードレールの実装とモデルアライメント技術に対する現在のアプローチを評価する。
論文 参考訳(メタデータ) (2024-06-16T22:04:10Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [65.77763092833348]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。
彼らの能力は有望だが、これらのエージェントは安全性を慎重に考慮する必要がある新たな脆弱性も導入している。
本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Foveate, Attribute, and Rationalize: Towards Physically Safe and
Trustworthy AI [76.28956947107372]
包括的不安全テキストは、日常的なシナリオから生じる可能性のある特定の関心領域であり、有害なテキストを検出するのが困難である。
安全の文脈において、信頼に値する合理的な生成のために外部知識を活用する新しいフレームワークであるFARMを提案する。
実験の結果,FARMはSafeTextデータセットの最先端結果を得ることができ,安全性の分類精度が5.9%向上したことがわかった。
論文 参考訳(メタデータ) (2022-12-19T17:51:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。