Fugu-MT 論文翻訳(概要): Integration of Object Detection and Small VLMs for Construction Safety Hazard Identification

論文の概要: Integration of Object Detection and Small VLMs for Construction Safety Hazard Identification

arxiv url: http://arxiv.org/abs/2604.05210v1
Date: Mon, 06 Apr 2026 22:10:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-08 17:42:09.510146
Title: Integration of Object Detection and Small VLMs for Construction Safety Hazard Identification
Title（参考訳）: 建設安全ハザード同定のための物体検出と小型VLMの統合
Authors: Muhammad Adil, Mehmood Ahmed, Muhammad Aqib, Vicente A. Gonzalez, Gaang Lee, Qipei Mei,
Abstract要約: 40億のパラメータ未満の小さな視覚言語モデル(sVLM)は効率を向上するが、しばしば精度と幻覚の低下に悩まされる。本研究では,オブジェクト検出とマルチモーダル推論を統合した検出誘導型sVLMフレームワークを提案する。
参考スコア（独自算出の注目度）: 1.1070461196091774
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Accurate and timely identification of construction hazards around workers is essential for preventing workplace accidents. While large vision-language models (VLMs) demonstrate strong contextual reasoning capabilities, their high computational requirements limit their applicability in near real-time construction hazard detection. In contrast, small vision-language models (sVLMs) with fewer than 4 billion parameters offer improved efficiency but often suffer from reduced accuracy and hallucination when analyzing complex construction scenes. To address this trade-off, this study proposes a detection-guided sVLM framework that integrates object detection with multimodal reasoning for contextual hazard identification. The framework first employs a YOLOv11n detector to localize workers and construction machinery within the scene. The detected entities are then embedded into structured prompts to guide the reasoning process of sVLMs, enabling spatially grounded hazard assessment. Within this framework, six sVLMs (Gemma-3 4B, Qwen-3-VL 2B/4B, InternVL-3 1B/2B, and SmolVLM-2B) were evaluated in zero-shot settings on a curated dataset of construction site images with hazard annotations and explanatory rationales. The proposed approach consistently improved hazard detection performance across all models. The best-performing model, Gemma-3 4B, achieved an F1-score of 50.6%, compared to 34.5% in the baseline configuration. Explanation quality also improved significantly, with BERTScore F1 increasing from 0.61 to 0.82. Despite incorporating object detection, the framework introduces minimal overhead, adding only 2.5 ms per image during inference. These results demonstrate that integrating lightweight object detection with small VLM reasoning provides an effective and efficient solution for context-aware construction safety hazard detection.
Abstract（参考訳）: 職場事故の防止には,作業員周辺の建設リスクの正確な特定が不可欠である。大きな視覚言語モデル(VLM)は、強い文脈推論能力を示すが、その高い計算要求は、ほぼリアルタイムな建設リスク検出における適用性を制限している。対照的に、40億のパラメータ未満の小さな視覚言語モデル(sVLM)は、効率が向上するが、複雑な建設シーンを分析する際には、精度と幻覚の低下に悩まされることが多い。このトレードオフに対処するために,オブジェクト検出とマルチモーダル推論を統合した検出誘導型sVLMフレームワークを提案する。このフレームワークはまず、YOLOv11n検出器を使用して、現場の労働者と建設機械をローカライズする。検出された物質は、構造化されたプロンプトに埋め込まれ、sVLMの推論過程をガイドし、空間的に座屈したハザードアセスメントを可能にする。この枠組みでは,6つのsVLM (Gemma-3 4B, Qwen-3-VL 2B/4B, InternVL-3 1B/2B, SmolVLM-2B) を, 危険アノテーションと説明的根拠を持つ建設現場画像の0ショット設定で評価した。提案手法は全モデルにおけるハザード検出性能を一貫して改善した。最高のパフォーマンスモデルであるGemma-3 4BはF1スコアが50.6%に達し、ベースライン構成は34.5%であった。説明品質も大幅に向上し、BERTScore F1 は 0.61 から 0.82 に増加した。オブジェクト検出が組み込まれているにもかかわらず、このフレームワークは最小限のオーバーヘッドを導入し、推論中にイメージ毎に2.5msしか追加しない。これらの結果から, 軽量物体検出と小型VLM推論を併用することで, 環境に配慮した建設安全検出を効果的かつ効果的に実現できることが示唆された。

関連論文リスト

HUGE-Bench: A Benchmark for High-Level UAV Vision-Language-Action Tasks [73.62053624331227]
Huge-Benchは高レベルUAVビジョンランゲージ・アクションのベンチマークである。 4つの現実世界のデジタルツインシーン、8つのハイレベルタスク、2.56mの軌跡からなる。プロセスの忠実度、終端精度、安全性を評価するために、プロセス指向および衝突認識メトリクスを導入する。
論文参考訳（メタデータ） (2026-03-20T10:08:42Z)
VIRO: Robust and Efficient Neuro-Symbolic Reasoning with Verification for Referring Expression Comprehension [51.76841625486355]
Referring Expression (REC) は、自然言語クエリに対応する画像領域をローカライズすることを目的としている。最近のニューロシンボリックRECアプローチは、大規模言語モデル(LLM)と視覚言語モデル(VLM)を利用して構成推論を行う。推論ステップ内に軽量な演算子レベルの検証器を組み込む,ニューロシンボリックなフレームワークであるVIROを紹介する。
論文参考訳（メタデータ） (2026-01-19T07:21:19Z)
Noise-Robust Tiny Object Localization with Flows [63.60972031108944]
フレキシブルなエラーモデリングと不確実性誘導最適化に正規化フローを活用するノイズローバストローカライゼーションフレームワークを提案する。本手法は,フローベース誤差モデルを用いて,複雑な非ガウス予測分布を抽出し,ノイズの多い監視下で頑健な学習を可能にする。不確実性を考慮した勾配変調機構は、トレーニングを安定化しながら過度な適合を緩和し、高不確実でノイズの強いサンプルからの学習をさらに抑制する。
論文参考訳（メタデータ） (2026-01-02T09:16:55Z)
Automated Hazard Detection in Construction Sites Using Large Language and Vision-Language Models [0.0]
この論文では、テキストデータとビジュアルデータの複合分析を通じて、建設の安全性を高めるためのマルチモーダルAIフレームワークを探求する。大規模言語モデル (LLM) と視覚言語モデル (VLM) の能力を評価するために2つのケーススタディを考案した。
論文参考訳（メタデータ） (2025-11-13T02:23:45Z)
Investigating Traffic Accident Detection Using Multimodal Large Language Models [3.4123736336071864]
本研究では,交通事故の検出と記述を行うマルチモーダル大規模言語モデル(MLLM)のゼロショット機能について検討する。その結果、PixtralはF1スコア71%、リコール83%のトップパフォーマーとなった。これらの結果は、MLLMと高度な視覚分析技術の統合の可能性を示している。
論文参考訳（メタデータ） (2025-09-23T14:47:33Z)
DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。 MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文参考訳（メタデータ） (2025-09-15T10:59:57Z)
Prompt to Protection: A Comparative Study of Multimodal LLMs in Construction Hazard Recognition [0.0]
本研究は,5つの最先端大言語モデル(LLM)の比較評価を行う。各モデルは、ゼロショット、少数ショット、チェーン・オブ・シント(CoT)という3つのプロンプト戦略の下でテストされた。その結果、CoTは性能に大きく影響し、CoTはモデル間で高い精度を連続的に生成することがわかった。
論文参考訳（メタデータ） (2025-06-09T05:22:35Z)
Safe-Construct: Redefining Construction Safety Violation Recognition as 3D Multi-View Engagement Task [2.0811729303868005]
違反認識を3次元多視点エンゲージメントタスクとして再構成するフレームワークであるSafe-Constructを紹介する。 Safe-Constructは、4つの違反タイプにわたる最先端メソッドよりも7.6%改善されている。
論文参考訳（メタデータ） (2025-04-15T05:21:09Z)
Uncertainty Estimation for 3D Object Detection via Evidential Learning [63.61283174146648]
本稿では,3次元検出器における鳥の視線表示における明らかな学習損失を利用して,3次元物体検出の不確かさを定量化するためのフレームワークを提案する。本研究では,これらの不確実性評価の有効性と重要性を,分布外シーンの特定,局所化の不十分な物体の発見,および(偽陰性)検出の欠如について示す。
論文参考訳（メタデータ） (2024-10-31T13:13:32Z)
Triggering Failures: Out-Of-Distribution detection by learning from local adversarial attacks in Semantic Segmentation [76.2621758731288]
セグメンテーションにおけるアウト・オブ・ディストリビューション(OOD)オブジェクトの検出に取り組む。私たちの主な貢献は、ObsNetと呼ばれる新しいOOD検出アーキテクチャであり、ローカル・アタック(LAA)に基づく専用トレーニングスキームと関連付けられています。 3つの異なるデータセットの文献の最近の10つの手法と比較して,速度と精度の両面で最高の性能が得られることを示す。
論文参考訳（メタデータ） (2021-08-03T17:09:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。