論文の概要: Using Vision Language Models for Safety Hazard Identification in Construction
- arxiv url: http://arxiv.org/abs/2504.09083v1
- Date: Sat, 12 Apr 2025 05:11:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-24 13:50:36.679996
- Title: Using Vision Language Models for Safety Hazard Identification in Construction
- Title(参考訳): 視覚言語モデルを用いた建設現場の安全ハザード同定
- Authors: Muhammad Adil, Gaang Lee, Vicente A. Gonzalez, Qipei Mei,
- Abstract要約: 本稿では,建設リスクの同定のための視覚言語モデル(VLM)に基づくフレームワークを提案し,実験的に検証した。
GPT-4o, Gemini, Llama 3.2, InternVL2を含む最先端のVLMを1100の建設現場画像のカスタムデータセットを用いて評価した。
- 参考スコア(独自算出の注目度): 1.2343292905447238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety hazard identification and prevention are the key elements of proactive safety management. Previous research has extensively explored the applications of computer vision to automatically identify hazards from image clips collected from construction sites. However, these methods struggle to identify context-specific hazards, as they focus on detecting predefined individual entities without understanding their spatial relationships and interactions. Furthermore, their limited adaptability to varying construction site guidelines and conditions hinders their generalization across different projects. These limitations reduce their ability to assess hazards in complex construction environments and adaptability to unseen risks, leading to potential safety gaps. To address these challenges, we proposed and experimentally validated a Vision Language Model (VLM)-based framework for the identification of construction hazards. The framework incorporates a prompt engineering module that structures safety guidelines into contextual queries, allowing VLM to process visual information and generate hazard assessments aligned with the regulation guide. Within this framework, we evaluated state-of-the-art VLMs, including GPT-4o, Gemini, Llama 3.2, and InternVL2, using a custom dataset of 1100 construction site images. Experimental results show that GPT-4o and Gemini 1.5 Pro outperformed alternatives and displayed promising BERTScore of 0.906 and 0.888 respectively, highlighting their ability to identify both general and context-specific hazards. However, processing times remain a significant challenge, impacting real-time feasibility. These findings offer insights into the practical deployment of VLMs for construction site hazard detection, thereby contributing to the enhancement of proactive safety management.
- Abstract(参考訳): 安全リスクの特定と予防は、積極的な安全管理の鍵となる要素である。
建設現場から収集した画像クリップから自動的にハザードを識別するコンピュータビジョンの応用について、これまで広く研究されてきた。
しかし、これらの手法は、空間的関係や相互作用を理解することなく、事前に定義された個人を検知することに集中するため、文脈特異的なハザードを特定するのに苦労する。
さらに、様々な建設現場のガイドラインや条件への適応性に制限があるため、様々なプロジェクトへの一般化が妨げられる。
これらの制限により、複雑な建設環境におけるハザードを評価する能力が低下し、見つからないリスクへの適応性が低下し、潜在的な安全性のギャップが生じる。
これらの課題に対処するために,建設リスクの同定のためのビジョン言語モデル(VLM)に基づくフレームワークを提案し,実験的に検証した。
このフレームワークには、安全ガイドラインをコンテキストクエリに構造化するプロンプトエンジニアリングモジュールが含まれており、VLMは視覚情報を処理し、規制ガイドと整合したハザードアセスメントを生成することができる。
本フレームワークでは,GPT-4o,Gemini,Llama 3.2,InternVL2といった最先端のVLMを,1100の建設現場画像のカスタムデータセットを用いて評価した。
実験の結果, GPT-4o と Gemini 1.5 Pro はそれぞれ 0.906 と 0.888 の BERTScore よりも優れており, 一般およびコンテキスト特異的なハザードを識別する能力を強調した。
しかし、処理時間は依然として大きな課題であり、リアルタイムの実現性に影響を与える。
これらの結果は,建設現場の危険度検知のためのVLMの実用的展開に関する知見を与え,積極的安全管理の強化に寄与する。
関連論文リスト
- Safe-Construct: Redefining Construction Safety Violation Recognition as 3D Multi-View Engagement Task [2.0811729303868005]
違反認識を3次元多視点エンゲージメントタスクとして再構成するフレームワークであるSafe-Constructを紹介する。
Safe-Constructは、4つの違反タイプにわたる最先端メソッドよりも7.6%改善されている。
論文 参考訳(メタデータ) (2025-04-15T05:21:09Z) - An Approach to Technical AGI Safety and Security [72.83728459135101]
我々は、人類を著しく傷つけるのに十分な害のリスクに対処するアプローチを開発する。
私たちは、誤用や悪用に対する技術的なアプローチに重点を置いています。
これらの成分を組み合わせてAGIシステムの安全性を実現する方法について概説する。
論文 参考訳(メタデータ) (2025-04-02T15:59:31Z) - Graphormer-Guided Task Planning: Beyond Static Rules with LLM Safety Perception [4.424170214926035]
本稿では,大規模言語モデルと構造化安全モデリングを組み合わせたリスク対応タスク計画フレームワークを提案する。
提案手法は,空間的および文脈的危険因子を抽出し,動的セマンティック安全グラフを構築する。
既定の安全性制約に依存する既存の手法とは異なり、我々のフレームワークはコンテキスト認識型リスク認識モジュールを導入している。
論文 参考訳(メタデータ) (2025-03-10T02:43:54Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.50078821423793]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs [75.85283891591678]
人工知能(AI)は科学研究に革命をもたらしていますが、実験室環境への統合が進むと、重要な安全上の課題が浮かび上がっています。
大規模言語モデル(LLM)は、手続き的なガイダンスから自律的な実験オーケストレーションまで、タスクをますます支援している。
このような過度な信頼性は、リスク識別やリスクアセスメントの失敗が重大事故を引き起こすような高リスクな実験室環境では特に危険である。
本研究では,LLM とビジョン言語モデル (VLM) を評価する総合的なフレームワークであるLab Safety Benchmark (LabSafety Bench) を提案する。
論文 参考訳(メタデータ) (2024-10-18T05:21:05Z) - Evaluating Cascaded Methods of Vision-Language Models for Zero-Shot Detection and Association of Hardhats for Increased Construction Safety [0.0]
本稿では、ゼロショット検出のための視覚言語モデル(VLM)と、建設安全性を高めるためのハードハットの関連性を評価する。
本研究では,実際の建設現場画像におけるハードハット検出のための基礎モデル,特にOWLv2の適用性について検討する。
論文 参考訳(メタデータ) (2024-10-16T04:42:10Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - Vision Language Model for Interpretable and Fine-grained Detection of Safety Compliance in Diverse Workplaces [5.993182776695029]
多様な職場安全コンプライアンスのための解釈可能な検出フレームワークであるClip2Safetyを紹介する。
このフレームワークは、シーン認識、視覚的プロンプト、安全アイテムの検出、きめ細かい検証の4つの主要なモジュールで構成されている。
その結果, Clip2Safetyは, 最先端の質問応答に基づくVLMよりも精度が向上するだけでなく, 推測時間も200倍高速であることがわかった。
論文 参考訳(メタデータ) (2024-08-13T18:32:06Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - The Need for Guardrails with Large Language Models in Medical Safety-Critical Settings: An Artificial Intelligence Application in the Pharmacovigilance Ecosystem [0.6965384453064829]
大規模言語モデル(LLM)は、特定の種類の知識処理を効果的にスケールする能力を備えた有用なツールである。
しかし、高リスクで安全に重要な領域への展開は、特に幻覚の問題など、ユニークな課題を生んでいる。
これは特に、不正確さが患者を傷つける可能性がある薬物の安全性のような設定に関係している。
我々は、特定の種類の幻覚と薬物安全性のエラーを軽減するために特別に設計されたガードレールのコンセプトスイートを開発し、実証した。
論文 参考訳(メタデータ) (2024-07-01T19:52:41Z) - Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [65.77763092833348]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。
彼らの能力は有望だが、これらのエージェントは安全性を慎重に考慮する必要がある新たな脆弱性も導入している。
本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z) - Foveate, Attribute, and Rationalize: Towards Physically Safe and
Trustworthy AI [76.28956947107372]
包括的不安全テキストは、日常的なシナリオから生じる可能性のある特定の関心領域であり、有害なテキストを検出するのが困難である。
安全の文脈において、信頼に値する合理的な生成のために外部知識を活用する新しいフレームワークであるFARMを提案する。
実験の結果,FARMはSafeTextデータセットの最先端結果を得ることができ,安全性の分類精度が5.9%向上したことがわかった。
論文 参考訳(メタデータ) (2022-12-19T17:51:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。