論文の概要: Evaluating Cascaded Methods of Vision-Language Models for Zero-Shot Detection and Association of Hardhats for Increased Construction Safety
- arxiv url: http://arxiv.org/abs/2410.12225v1
- Date: Wed, 16 Oct 2024 04:42:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:42:19.773802
- Title: Evaluating Cascaded Methods of Vision-Language Models for Zero-Shot Detection and Association of Hardhats for Increased Construction Safety
- Title(参考訳): ゼロショット検出のための視覚言語モデルのケースド手法の評価と建設安全向上のためのハードハットの関連性
- Authors: Lucas Choi, Ross Greer,
- Abstract要約: 本稿では、ゼロショット検出のための視覚言語モデル(VLM)と、建設安全性を高めるためのハードハットの関連性を評価する。
本研究では,実際の建設現場画像におけるハードハット検出のための基礎モデル,特にOWLv2の適用性について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper evaluates the use of vision-language models (VLMs) for zero-shot detection and association of hardhats to enhance construction safety. Given the significant risk of head injuries in construction, proper enforcement of hardhat use is critical. We investigate the applicability of foundation models, specifically OWLv2, for detecting hardhats in real-world construction site images. Our contributions include the creation of a new benchmark dataset, Hardhat Safety Detection Dataset, by filtering and combining existing datasets and the development of a cascaded detection approach. Experimental results on 5,210 images demonstrate that the OWLv2 model achieves an average precision of 0.6493 for hardhat detection. We further analyze the limitations and potential improvements for real-world applications, highlighting the strengths and weaknesses of current foundation models in safety perception domains.
- Abstract(参考訳): 本稿では、ゼロショット検出のための視覚言語モデル(VLM)と、建設安全性を高めるためのハードハットの関連性を評価する。
建設における頭部損傷の重大なリスクを考えると、ハードハットの使用の適切な実施は重要である。
本研究では,実際の建設現場画像におけるハードハット検出のための基礎モデル,特にOWLv2の適用性について検討する。
私たちのコントリビューションには、既存のデータセットをフィルタリングして組み合わせることで、新しいベンチマークデータセットであるHardhat Safety Detection Datasetの作成と、カスケード検出アプローチの開発が含まれています。
5,210枚の画像を用いて実験した結果,OWLv2モデルの平均精度は0.6493であることがわかった。
我々は、現実世界のアプリケーションに対する制限と潜在的な改善をさらに分析し、安全知覚領域における現在の基盤モデルの長所と短所を強調した。
関連論文リスト
- Model Developmental Safety: A Safety-Centric Method and Applications in Vision-Language Models [75.8161094916476]
本稿では,既存の画像分類能力向上のために,事前学習された視覚言語モデル(別名CLIPモデル)の開発方法について検討する。
自律走行とシーン認識データセットにおける視覚知覚能力の向上に関する実験は,提案手法の有効性を実証するものである。
論文 参考訳(メタデータ) (2024-10-04T22:34:58Z) - The BRAVO Semantic Segmentation Challenge Results in UNCV2024 [68.20197719071436]
我々は,(1)モデルが様々な摂動にさらされたときの精度とキャリブレーションを反映したセマンティック信頼性,(2)トレーニング中に未知のオブジェクトクラスを検出する能力を測定するOOD信頼性の2つのカテゴリを定義した。
その結果、大規模事前学習と最小限のアーキテクチャ設計が、堅牢で信頼性の高いセマンティックセグメンテーションモデルを開発する上で重要であるという興味深い洞察が浮かび上がっている。
論文 参考訳(メタデータ) (2024-09-23T15:17:30Z) - Hybrid-Segmentor: A Hybrid Approach to Automated Fine-Grained Crack Segmentation in Civil Infrastructure [52.2025114590481]
エンコーダ・デコーダをベースとした手法であるHybrid-Segmentorを導入する。
これにより、モデルは、様々な種類の形状、表面、き裂の大きさを区別する一般化能力を向上させることができる。
提案モデルは,5つの測定基準(精度0.971,精度0.804,リコール0.744,F1スコア0.770,IoUスコア0.630)で既存ベンチマークモデルより優れ,最先端の状態を達成している。
論文 参考訳(メタデータ) (2024-09-04T16:47:16Z) - Open-Vocabulary Object Detectors: Robustness Challenges under Distribution Shifts [6.486569431242123]
VLM(Vision-Language Models)は近年,画期的な成果を上げている。
VLMオブジェクト検出におけるOODロバスト性の調査は、これらのモデルの信頼性を高めるために不可欠である。
本研究では,最近のOV基盤オブジェクト検出モデルのゼロショット機能について,包括的ロバスト性評価を行った。
論文 参考訳(メタデータ) (2024-04-01T14:18:15Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - On the Robustness of Object Detection Models in Aerial Images [37.50307094643692]
DOTA-v1.0に基づく新しいベンチマークを2つ導入する。
第1のベンチマークは、19の一般的な汚職を含むが、第2のベンチマークは、クラウド崩壊したイメージに焦点を当てている。
改良されたモデルアーキテクチャ,大規模ネットワーク,高度に構築されたモジュール,および巧妙なデータ拡張戦略により,航空物体検出モデルの堅牢性が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-29T15:16:51Z) - Large, Complex, and Realistic Safety Clothing and Helmet Detection: Dataset and Method [35.39383667490014]
我々は、大型で複雑で現実的な安全服とヘルメット検出データセットを構築した。
SFCHDは、12,373のイメージ、7のカテゴリ、50,552のアノテーションからなる2つの真正化学プラントに由来する。
我々は空間的およびチャネル的注意に基づく低照度拡張モジュールを設計する。
論文 参考訳(メタデータ) (2023-06-03T12:15:20Z) - A Survey on the Robustness of Computer Vision Models against Common Corruptions [3.6486148851646063]
コンピュータビジョンモデルは、センサーエラーや極端な撮像環境に起因する入力画像の変化に影響を受けやすい。
これらの破損は、現実のシナリオにデプロイする際のモデルの信頼性を著しく損なう可能性がある。
本稿では,コンピュータビジョンモデルの汎用汚職に対する堅牢性を改善する手法について概観する。
論文 参考訳(メタデータ) (2023-05-10T10:19:31Z) - Robo3D: Towards Robust and Reliable 3D Perception against Corruptions [58.306694836881235]
我々は,3次元検出器とセグメンタのロバスト性を,アウト・オブ・ディストリビューションのシナリオで検証するための,最初の総合的なベンチマークであるRobo3Dを紹介する。
気象条件の悪化,外乱,センサの故障などに起因する8種類の汚職について検討した。
本稿では,モデルレジリエンスを高めるための簡易なフレキシブルなボキセル化戦略とともに,密度に敏感なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-30T17:59:17Z) - On the Robustness of Quality Measures for GANs [136.18799984346248]
本研究は、インセプションスコア(IS)やFr'echet Inception Distance(FID)のような生成モデルの品質測定の堅牢性を評価する。
このような測度は、加算画素摂動によっても操作可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T06:43:09Z) - A Comprehensive Evaluation Framework for Deep Model Robustness [44.20580847861682]
ディープニューラルネットワーク(DNN)は、幅広いアプリケーションで顕著なパフォーマンスを達成しています。
彼らは敵の防御を動機付ける敵の例に弱い。
本稿では,包括的で厳密で一貫性のある評価指標を含むモデル評価フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-24T01:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。