Fugu-MT 論文翻訳(概要): Evaluating Cascaded Methods of Vision-Language Models for Zero-Shot Detection and Association of Hardhats for Increased Construction Safety

論文の概要: Evaluating Cascaded Methods of Vision-Language Models for Zero-Shot Detection and Association of Hardhats for Increased Construction Safety

arxiv url: http://arxiv.org/abs/2410.12225v1
Date: Wed, 16 Oct 2024 04:42:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.136714
Title: Evaluating Cascaded Methods of Vision-Language Models for Zero-Shot Detection and Association of Hardhats for Increased Construction Safety
Title（参考訳）: ゼロショット検出のための視覚言語モデルのケースド手法の評価と建設安全向上のためのハードハットの関連性
Authors: Lucas Choi, Ross Greer,
Abstract要約: 本稿では、ゼロショット検出のための視覚言語モデル(VLM)と、建設安全性を高めるためのハードハットの関連性を評価する。本研究では,実際の建設現場画像におけるハードハット検出のための基礎モデル,特にOWLv2の適用性について検討する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper evaluates the use of vision-language models (VLMs) for zero-shot detection and association of hardhats to enhance construction safety. Given the significant risk of head injuries in construction, proper enforcement of hardhat use is critical. We investigate the applicability of foundation models, specifically OWLv2, for detecting hardhats in real-world construction site images. Our contributions include the creation of a new benchmark dataset, Hardhat Safety Detection Dataset, by filtering and combining existing datasets and the development of a cascaded detection approach. Experimental results on 5,210 images demonstrate that the OWLv2 model achieves an average precision of 0.6493 for hardhat detection. We further analyze the limitations and potential improvements for real-world applications, highlighting the strengths and weaknesses of current foundation models in safety perception domains.
Abstract（参考訳）: 本稿では、ゼロショット検出のための視覚言語モデル(VLM)と、建設安全性を高めるためのハードハットの関連性を評価する。建設における頭部損傷の重大なリスクを考えると、ハードハットの使用の適切な実施は重要である。本研究では,実際の建設現場画像におけるハードハット検出のための基礎モデル,特にOWLv2の適用性について検討する。私たちのコントリビューションには、既存のデータセットをフィルタリングして組み合わせることで、新しいベンチマークデータセットであるHardhat Safety Detection Datasetの作成と、カスケード検出アプローチの開発が含まれています。 5,210枚の画像を用いて実験した結果,OWLv2モデルの平均精度は0.6493であることがわかった。我々は、現実世界のアプリケーションに対する制限と潜在的な改善をさらに分析し、安全知覚領域における現在の基盤モデルの長所と短所を強調した。

関連論文リスト

It Only Gets Worse: Revisiting DL-Based Vulnerability Detectors from a Practical Perspective [14.271145160443462]
VulTegraは、脆弱性検出のためのスクラッチトレーニングされたDLモデルと事前トレーニングされたDLモデルを比較する。最先端のSOTA(State-of-the-art)検出器は、依然として低い一貫性、限られた現実世界能力、スケーラビリティの課題に悩まされている。
論文参考訳（メタデータ） (2025-07-13T08:02:56Z)
Determination Of Structural Cracks Using Deep Learning Frameworks [0.0]
本研究では,構造き裂検出の精度と効率を高めるために,新しいディープラーニングアーキテクチャを提案する。本研究では, 残留U-Netモデルの各種構成を応用した。アンサンブルモデルが最も高いスコアを獲得し、精度が向上したことを示している。
論文参考訳（メタデータ） (2025-07-03T08:24:47Z)
Advancing Neural Network Verification through Hierarchical Safety Abstract Interpretation [52.626086874715284]
我々は、安全でない出力の階層構造を検証する抽象的DNN検証と呼ばれる新しい問題定式化を導入する。出力到達可能な集合に関する抽象的解釈と推論を活用することにより,形式的検証プロセスにおいて,複数の安全性レベルを評価することができる。我々の貢献には、新しい抽象的安全性の定式化と既存のアプローチとの関係を理論的に探求することが含まれる。
論文参考訳（メタデータ） (2025-05-08T13:29:46Z)
Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-22T08:34:35Z)
Using Vision Language Models for Safety Hazard Identification in Construction [1.2343292905447238]
本稿では,建設リスクの同定のための視覚言語モデル(VLM)に基づくフレームワークを提案し,実験的に検証した。 GPT-4o, Gemini, Llama 3.2, InternVL2を含む最先端のVLMを1100の建設現場画像のカスタムデータセットを用いて評価した。
論文参考訳（メタデータ） (2025-04-12T05:11:23Z)
Benchmarking the Spatial Robustness of DNNs via Natural and Adversarial Localized Corruptions [49.546479320670464]
本稿では,セグメンテーションモデルの空間的ロバスト性を評価するための特別な指標を紹介する。本稿では,モデルロバスト性をより深く理解する手法として,地域対応型マルチアタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック分析を提案する。その結果、モデルがこれらの2種類の脅威に異なる反応を示すことが明らかとなった。
論文参考訳（メタデータ） (2025-04-02T11:37:39Z)
Model Developmental Safety: A Safety-Centric Method and Applications in Vision-Language Models [75.8161094916476]
本稿では,既存の画像分類能力向上のために,事前学習された視覚言語モデル(別名CLIPモデル)の開発方法について検討する。自律走行とシーン認識データセットにおける視覚知覚能力の向上に関する実験は,提案手法の有効性を実証するものである。
論文参考訳（メタデータ） (2024-10-04T22:34:58Z)
The BRAVO Semantic Segmentation Challenge Results in UNCV2024 [68.20197719071436]
我々は,(1)モデルが様々な摂動にさらされたときの精度とキャリブレーションを反映したセマンティック信頼性,(2)トレーニング中に未知のオブジェクトクラスを検出する能力を測定するOOD信頼性の2つのカテゴリを定義した。その結果、大規模事前学習と最小限のアーキテクチャ設計が、堅牢で信頼性の高いセマンティックセグメンテーションモデルを開発する上で重要であるという興味深い洞察が浮かび上がっている。
論文参考訳（メタデータ） (2024-09-23T15:17:30Z)
Hybrid-Segmentor: A Hybrid Approach to Automated Fine-Grained Crack Segmentation in Civil Infrastructure [52.2025114590481]
エンコーダ・デコーダをベースとした手法であるHybrid-Segmentorを導入する。これにより、モデルは、様々な種類の形状、表面、き裂の大きさを区別する一般化能力を向上させることができる。提案モデルは,5つの測定基準(精度0.971,精度0.804,リコール0.744,F1スコア0.770,IoUスコア0.630)で既存ベンチマークモデルより優れ,最先端の状態を達成している。
論文参考訳（メタデータ） (2024-09-04T16:47:16Z)
Open-Vocabulary Object Detectors: Robustness Challenges under Distribution Shifts [6.486569431242123]
VLM(Vision-Language Models)は近年,画期的な成果を上げている。 VLMオブジェクト検出におけるOODロバスト性の調査は、これらのモデルの信頼性を高めるために不可欠である。本研究では,最近のOV基盤オブジェクト検出モデルのゼロショット機能について,包括的ロバスト性評価を行った。
論文参考訳（メタデータ） (2024-04-01T14:18:15Z)
Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。提案手法は平均精度(MAP)を約45.7%向上させる。この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文参考訳（メタデータ） (2023-11-21T19:49:13Z)
On the Robustness of Object Detection Models in Aerial Images [37.50307094643692]
DOTA-v1.0に基づく新しいベンチマークを2つ導入する。第1のベンチマークは、19の一般的な汚職を含むが、第2のベンチマークは、クラウド崩壊したイメージに焦点を当てている。改良されたモデルアーキテクチャ,大規模ネットワーク,高度に構築されたモジュール,および巧妙なデータ拡張戦略により,航空物体検出モデルの堅牢性が向上することがわかった。
論文参考訳（メタデータ） (2023-08-29T15:16:51Z)
Large, Complex, and Realistic Safety Clothing and Helmet Detection: Dataset and Method [35.39383667490014]
我々は、大型で複雑で現実的な安全服とヘルメット検出データセットを構築した。 SFCHDは、12,373のイメージ、7のカテゴリ、50,552のアノテーションからなる2つの真正化学プラントに由来する。我々は空間的およびチャネル的注意に基づく低照度拡張モジュールを設計する。
論文参考訳（メタデータ） (2023-06-03T12:15:20Z)
A Survey on the Robustness of Computer Vision Models against Common Corruptions [3.6486148851646063]
コンピュータビジョンモデルは、センサーエラーや極端な撮像環境に起因する入力画像の変化に影響を受けやすい。これらの破損は、現実のシナリオにデプロイする際のモデルの信頼性を著しく損なう可能性がある。本稿では,コンピュータビジョンモデルの汎用汚職に対する堅牢性を改善する手法について概観する。
論文参考訳（メタデータ） (2023-05-10T10:19:31Z)
Robo3D: Towards Robust and Reliable 3D Perception against Corruptions [58.306694836881235]
我々は,3次元検出器とセグメンタのロバスト性を,アウト・オブ・ディストリビューションのシナリオで検証するための,最初の総合的なベンチマークであるRobo3Dを紹介する。気象条件の悪化,外乱,センサの故障などに起因する8種類の汚職について検討した。本稿では,モデルレジリエンスを高めるための簡易なフレキシブルなボキセル化戦略とともに,密度に敏感なトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-03-30T17:59:17Z)
On the Robustness of Quality Measures for GANs [136.18799984346248]
本研究は、インセプションスコア(IS)やFr'echet Inception Distance(FID)のような生成モデルの品質測定の堅牢性を評価する。このような測度は、加算画素摂動によっても操作可能であることを示す。
論文参考訳（メタデータ） (2022-01-31T06:43:09Z)
A Comprehensive Evaluation Framework for Deep Model Robustness [44.20580847861682]
ディープニューラルネットワーク(DNN)は、幅広いアプリケーションで顕著なパフォーマンスを達成しています。彼らは敵の防御を動機付ける敵の例に弱い。本稿では,包括的で厳密で一貫性のある評価指標を含むモデル評価フレームワークを提案する。
論文参考訳（メタデータ） (2021-01-24T01:04:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。