論文の概要: Automating construction safety inspections using a multi-modal vision-language RAG framework
- arxiv url: http://arxiv.org/abs/2510.04145v1
- Date: Sun, 05 Oct 2025 10:48:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.489595
- Title: Automating construction safety inspections using a multi-modal vision-language RAG framework
- Title(参考訳): マルチモーダル視覚言語RAGフレームワークを用いた建設安全検査の自動化
- Authors: Chenxin Wang, Elyas Asadi Shamsabadi, Zhaohui Chen, Luming Shen, Alireza Ahmadian Fard Fini, Daniel Dias-da-Costa,
- Abstract要約: 本研究では,視覚入力と音声入力を統合することで,建設安全検査報告を自動化するフレームワークであるSiteShieldを紹介する。
実世界のデータを用いて、SiteShieldはF1スコアが0.82、ハミング損失が0.04、精度が0.76、リコールが0.96で、単調なLDMよりも優れていた。
- 参考スコア(独自算出の注目度): 1.737994603273206
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Conventional construction safety inspection methods are often inefficient as they require navigating through large volume of information. Recent advances in large vision-language models (LVLMs) provide opportunities to automate safety inspections through enhanced visual and linguistic understanding. However, existing applications face limitations including irrelevant or unspecific responses, restricted modal inputs and hallucinations. Utilisation of Large Language Models (LLMs) for this purpose is constrained by availability of training data and frequently lack real-time adaptability. This study introduces SiteShield, a multi-modal LVLM-based Retrieval-Augmented Generation (RAG) framework for automating construction safety inspection reports by integrating visual and audio inputs. Using real-world data, SiteShield outperformed unimodal LLMs without RAG with an F1 score of 0.82, hamming loss of 0.04, precision of 0.76, and recall of 0.96. The findings indicate that SiteShield offers a novel pathway to enhance information retrieval and efficiency in generating safety reports.
- Abstract(参考訳): 従来の建設安全検査手法は、大量の情報をナビゲートする必要があるため、しばしば非効率である。
大規模視覚言語モデル(LVLM)の最近の進歩は、視覚的および言語的理解の強化を通じて安全性検査を自動化する機会を提供する。
しかし、既存のアプリケーションは、無関係または非特異な応答、制限されたモーダル入力、幻覚を含む制限に直面している。
この目的のための大規模言語モデル(LLM)の利用は、トレーニングデータの可用性によって制限され、リアルタイム適応性に欠けることが多い。
本研究では,マルチモーダルなLVLMベースRetrieval-Augmented Generation(RAG)フレームワークであるSiteShieldを紹介した。
実世界のデータを用いて、SiteShieldはRAGが0.82点、ハミングが0.04点、精度が0.76点、リコールが0.96点の単調なLDMよりも優れていた。
その結果,SiteShieldは,安全レポート作成における情報検索と効率向上のための新たな経路を提供することがわかった。
関連論文リスト
- Omni-SafetyBench: A Benchmark for Safety Evaluation of Audio-Visual Large Language Models [43.88239953205896]
Omni-SafetyBenchは、OLLMの安全性評価のための最初の総合的な並列ベンチマークである。
複雑なオムニモーダル入力によるOLLMの理解課題を考慮し,条件付き攻撃成功率(C-ASR)と拒絶率(C-RR)に基づく安全スコアを提案する。
Omni-SafetyBenchを用いて、既存の安全アライメントアルゴリズムを評価し、OLLMの安全性アライメントにおける重要な課題を特定した。
論文 参考訳(メタデータ) (2025-08-10T04:15:16Z) - Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - Bridging the Safety Gap: A Guardrail Pipeline for Trustworthy LLM Inferences [18.36319991890607]
本稿では,Large Language Model(LLM)推論の安全性と信頼性を高めるために設計されたガードレールパイプラインであるWildflare GuardRailを紹介する。
Wildflare GuardRailは、セーフティインプットを識別し、モデルアウトプットの幻覚を検出するSafety Detectorなど、いくつかのコア機能モジュールを統合している。
軽量なラッパーは、コストのかかるモデルコールなしで、クエリ毎に1.06sのモデル出力で悪意のあるURLに100%の精度で対処できる。
論文 参考訳(メタデータ) (2025-02-12T05:48:57Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Using Multimodal Large Language Models for Automated Detection of Traffic Safety Critical Events [5.233512464561313]
MLLM(Multimodal Large Language Models)は、テキスト、ビジュアル、オーディオのモダリティを統合する新しいアプローチを提供する。
我々のフレームワークはMLLMの推論能力を活用し、文脈固有のプロンプトを通して出力を誘導する。
予備的な結果は、ゼロショット学習と正確なシナリオ分析におけるフレームワークの可能性を示している。
論文 参考訳(メタデータ) (2024-06-19T23:50:41Z) - Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations [76.19419888353586]
大規模言語モデル(LLM)は、不誠実なアウトプットからバイアスや有害な世代に至るまで、さまざまなリスクを受けやすい。
我々は,様々な害のラベルを提供するコンパクトで容易に構築できる分類モデルである,検出器のライブラリを作成し,展開する取り組みについて述べる。
論文 参考訳(メタデータ) (2024-03-09T21:07:16Z) - Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。
全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。
ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-16T13:17:20Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。