論文の概要: Automated Hazard Detection in Construction Sites Using Large Language and Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.15720v1
- Date: Thu, 13 Nov 2025 02:23:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.28468
- Title: Automated Hazard Detection in Construction Sites Using Large Language and Vision-Language Models
- Title(参考訳): 大規模言語モデルと視覚言語モデルを用いた建設現場におけるハザード自動検出
- Authors: Islem Sahraoui,
- Abstract要約: この論文では、テキストデータとビジュアルデータの複合分析を通じて、建設の安全性を高めるためのマルチモーダルAIフレームワークを探求する。
大規模言語モデル (LLM) と視覚言語モデル (VLM) の能力を評価するために2つのケーススタディを考案した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This thesis explores a multimodal AI framework for enhancing construction safety through the combined analysis of textual and visual data. In safety-critical environments such as construction sites, accident data often exists in multiple formats, such as written reports, inspection records, and site imagery, making it challenging to synthesize hazards using traditional approaches. To address this, this thesis proposed a multimodal AI framework that combines text and image analysis to assist in identifying safety hazards on construction sites. Two case studies were consucted to evaluate the capabilities of large language models (LLMs) and vision-language models (VLMs) for automated hazard identification.The first case study introduces a hybrid pipeline that utilizes GPT 4o and GPT 4o mini to extract structured insights from a dataset of 28,000 OSHA accident reports (2000-2025). The second case study extends this investigation using Molmo 7B and Qwen2 VL 2B, lightweight, open-source VLMs. Using the public ConstructionSite10k dataset, the performance of the two models was evaluated on rule-level safety violation detection using natural language prompts. This experiment served as a cost-aware benchmark against proprietary models and allowed testing at scale with ground-truth labels. Despite their smaller size, Molmo 7B and Quen2 VL 2B showed competitive performance in certain prompt configurations, reinforcing the feasibility of low-resource multimodal systems for rule-aware safety monitoring.
- Abstract(参考訳): この論文では、テキストデータとビジュアルデータの複合分析を通じて、建設の安全性を高めるためのマルチモーダルAIフレームワークを探求する。
建設現場などの安全に重要な環境では、事故データは書面報告、検査記録、現場画像などの複数の形式で存在し、従来の手法でハザードを合成することは困難である。
これを解決するために、本論文では、テキストと画像分析を組み合わせたマルチモーダルAIフレームワークを提案し、建設現場における安全リスクの特定を支援した。
大規模言語モデル (LLMs) と視覚言語モデル (VLMs) の自律的ハザード識別能力を評価するために2つのケーススタディを考案し, GPT 4o と GPT 4o mini を用いて28,000 OHA 事故報告 (2000-2025) のデータセットから構造化された洞察を抽出するハイブリッドパイプラインを導入した。
第2のケーススタディでは、Momo 7BとQwen2 VL 2B、軽量でオープンソースのVLMを用いて、この調査を拡張している。
パブリックなConstructationSite10kデータセットを用いて、自然言語プロンプトを用いたルールレベルの安全違反検出に基づいて、2つのモデルの性能を評価した。
この実験は、プロプライエタリなモデルに対するコスト意識のベンチマークとして機能し、グランドトラストラベルによる大規模テストを可能にした。
小型にもかかわらず、Momo 7B と Quen2 VL 2B は特定の迅速な構成で競合性能を示し、ルール対応の安全監視のための低リソースマルチモーダルシステムの実現性を強化した。
関連論文リスト
- Automating construction safety inspections using a multi-modal vision-language RAG framework [1.737994603273206]
本研究では,視覚入力と音声入力を統合することで,建設安全検査報告を自動化するフレームワークであるSiteShieldを紹介する。
実世界のデータを用いて、SiteShieldはF1スコアが0.82、ハミング損失が0.04、精度が0.76、リコールが0.96で、単調なLDMよりも優れていた。
論文 参考訳(メタデータ) (2025-10-05T10:48:54Z) - Visual-Semantic Knowledge Conflicts in Operating Rooms: Synthetic Data Curation for Surgical Risk Perception in Multimodal Large Language Models [7.916129615051081]
拡散モデルにより生成された34,000以上の合成画像からなるデータセットを提案する。
データセットには、バリデーションのためのゴールドスタンダード参照として機能する214の人間アノテーション付きイメージが含まれている。
論文 参考訳(メタデータ) (2025-06-25T07:06:29Z) - OVERT: A Benchmark for Over-Refusal Evaluation on Text-to-Image Models [91.55634905861827]
Over-refusalは$textitover-refusal$として知られる現象で、T2Iモデルの実用性を減らす。
我々は,OVERT(textbfOVE$r-$textbfR$efusal evaluation on $textbfT$ext-to-image model)を提案する。
論文 参考訳(メタデータ) (2025-05-27T15:42:46Z) - Advancing Neural Network Verification through Hierarchical Safety Abstract Interpretation [52.626086874715284]
我々は、安全でない出力の階層構造を検証する抽象的DNN検証と呼ばれる新しい問題定式化を導入する。
出力到達可能な集合に関する抽象的解釈と推論を活用することにより,形式的検証プロセスにおいて,複数の安全性レベルを評価することができる。
我々の貢献には、新しい抽象的安全性の定式化と既存のアプローチとの関係を理論的に探求することが含まれる。
論文 参考訳(メタデータ) (2025-05-08T13:29:46Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - Towards a Multi-Agent Vision-Language System for Zero-Shot Novel Hazardous Object Detection for Autonomous Driving Safety [0.0]
視覚言語推論とゼロショットオブジェクト検出を統合したマルチモーダル手法を提案する。
予測ハザードとバウンディングボックスアノテーションを一致させるために,OpenAIのCLIPモデルを取り入れたオブジェクト検出を改良する。
その結果,現在の視覚言語に基づくアプローチの長所と短所が明らかになった。
論文 参考訳(メタデータ) (2025-04-18T01:25:02Z) - Using Vision Language Models for Safety Hazard Identification in Construction [1.2343292905447238]
本稿では,建設リスクの同定のための視覚言語モデル(VLM)に基づくフレームワークを提案し,実験的に検証した。
GPT-4o, Gemini, Llama 3.2, InternVL2を含む最先端のVLMを1100の建設現場画像のカスタムデータセットを用いて評価した。
論文 参考訳(メタデータ) (2025-04-12T05:11:23Z) - Using Multimodal Large Language Models for Automated Detection of Traffic Safety Critical Events [5.233512464561313]
MLLM(Multimodal Large Language Models)は、テキスト、ビジュアル、オーディオのモダリティを統合する新しいアプローチを提供する。
我々のフレームワークはMLLMの推論能力を活用し、文脈固有のプロンプトを通して出力を誘導する。
予備的な結果は、ゼロショット学習と正確なシナリオ分析におけるフレームワークの可能性を示している。
論文 参考訳(メタデータ) (2024-06-19T23:50:41Z) - Learning Traffic Crashes as Language: Datasets, Benchmarks, and What-if Causal Analyses [76.59021017301127]
我々は,CrashEventという大規模トラフィッククラッシュ言語データセットを提案し,実世界のクラッシュレポート19,340を要約した。
さらに,クラッシュイベントの特徴学習を,新たなテキスト推論問題として定式化し,さらに様々な大規模言語モデル(LLM)を微調整して,詳細な事故結果を予測する。
実験の結果, LLMに基づくアプローチは事故の重大度を予測できるだけでなく, 事故の種類を分類し, 損害を予測できることがわかった。
論文 参考訳(メタデータ) (2024-06-16T03:10:16Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。