論文の概要: Responsible AI in Construction Safety: Systematic Evaluation of Large Language Models and Prompt Engineering
- arxiv url: http://arxiv.org/abs/2411.08320v1
- Date: Wed, 13 Nov 2024 04:06:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:11:28.724185
- Title: Responsible AI in Construction Safety: Systematic Evaluation of Large Language Models and Prompt Engineering
- Title(参考訳): 建設安全における責任AI:大規模言語モデルとプロンプト工学の体系的評価
- Authors: Farouq Sammour, Jia Xu, Xi Wang, Mo Hu, Zhenyu Zhang,
- Abstract要約: 建設は依然として最も危険な分野の1つである。
AIの最近の進歩、特にLarge Language Models (LLMs)は、職場の安全性を高めるための有望な機会を提供する。
本研究は、認定安全専門家委員会(BCSP)が実施する3つの基準試験において、広く使用されている2つのLCM(GPT-3.5とGPT-4o)の性能を評価する。
- 参考スコア(独自算出の注目度): 9.559203170987598
- License:
- Abstract: Construction remains one of the most hazardous sectors. Recent advancements in AI, particularly Large Language Models (LLMs), offer promising opportunities for enhancing workplace safety. However, responsible integration of LLMs requires systematic evaluation, as deploying them without understanding their capabilities and limitations risks generating inaccurate information, fostering misplaced confidence, and compromising worker safety. This study evaluates the performance of two widely used LLMs, GPT-3.5 and GPT-4o, across three standardized exams administered by the Board of Certified Safety Professionals (BCSP). Using 385 questions spanning seven safety knowledge areas, the study analyzes the models' accuracy, consistency, and reliability. Results show that both models consistently exceed the BCSP benchmark, with GPT-4o achieving an accuracy rate of 84.6% and GPT-3.5 reaching 73.8%. Both models demonstrate strengths in safety management systems and hazard identification and control, but exhibit weaknesses in science, mathematics, emergency response, and fire prevention. An error analysis identifies four primary limitations affecting LLM performance: lack of knowledge, reasoning flaws, memory issues, and calculation errors. Our study also highlights the impact of prompt engineering strategies, with variations in accuracy reaching 13.5% for GPT-3.5 and 7.9% for GPT-4o. However, no single prompt configuration proves universally effective. This research advances knowledge in three ways: by identifying areas where LLMs can support safety practices and where human oversight remains essential, by offering practical insights into improving LLM implementation through prompt engineering, and by providing evidence-based direction for future research and development. These contributions support the responsible integration of AI in construction safety management toward achieving zero injuries.
- Abstract(参考訳): 建設は依然として最も危険な分野の1つである。
AIの最近の進歩、特にLarge Language Models (LLMs)は、職場の安全性を高めるための有望な機会を提供する。
しかし、LCMの責任ある統合には、それらの能力を理解しずにデプロイし、不正確な情報を生み出すリスクを制限し、不正確な信頼を育み、労働者の安全を損なうような体系的な評価が必要である。
本研究は,認定安全専門家委員会(BCSP)が実施する3つの基準試験において,広く使用されている2つのLCM(GPT-3.5およびGPT-4o)の性能評価を行った。
7つの安全知識領域にまたがる385の質問を用いて、モデルの正確性、一貫性、信頼性を分析した。
GPT-4oは84.6%、GPT-3.5は73.8%である。
どちらのモデルも、安全管理システムとハザード識別と制御の長所を示すが、科学、数学、緊急対応、火災防止の弱さを示す。
エラー解析では、知識不足、推論欠陥、メモリの問題、計算エラーの4つの主要な制限を識別する。
また, GPT-3.5では精度が13.5%, GPT-4oでは7.9%に達した。
しかしながら、単一のプロンプト構成が普遍的に有効であることを示すものはない。
本研究は, LLMが安全プラクティスを支援し, 人間の監視が不可欠である領域を特定すること, 迅速なエンジニアリングによるLLMの実装改善に関する実践的な洞察を提供すること, 将来的な研究・開発のためのエビデンスに基づく方向性を提供すること, の3つの手法で知識を向上する。
これらの貢献は、ゼロケガを達成するための建設安全管理におけるAIの責任ある統合を支援する。
関連論文リスト
- Defining and Evaluating Physical Safety for Large Language Models [62.4971588282174]
大型言語モデル (LLM) は、ドローンのようなロボットシステムを制御するためにますます使われている。
現実世界のアプリケーションに物理的な脅威や害をもたらすリスクは、まだ解明されていない。
我々は,ドローンの物理的安全性リスクを,(1)目標脅威,(2)目標脅威,(3)インフラ攻撃,(4)規制違反の4つのカテゴリに分類する。
論文 参考訳(メタデータ) (2024-11-04T17:41:25Z) - LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs [80.45174785447136]
実験室の事故は人命と財産に重大なリスクをもたらす。
安全訓練の進歩にもかかわらず、実験員はいまだに無意識に安全でない慣行に従事している可能性がある。
様々な分野におけるガイダンスのための大きな言語モデル(LLM)に対する懸念が高まっている。
論文 参考訳(メタデータ) (2024-10-18T05:21:05Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。
まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Current state of LLM Risks and AI Guardrails [0.0]
大規模言語モデル(LLM)はますます洗練され、安全性と信頼性が最優先されるセンシティブなアプリケーションに広くデプロイされるようになる。
これらのリスクは、LSMを望ましい行動と整合させ、潜在的な害を軽減するために、"ガードレール"の開発を必要とする。
本研究は,LLMの展開に伴うリスクを調査し,ガードレールの実装とモデルアライメント技術に対する現在のアプローチを評価する。
論文 参考訳(メタデータ) (2024-06-16T22:04:10Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - An Insight into Security Code Review with LLMs: Capabilities, Obstacles and Influential Factors [9.309745288471374]
セキュリティコードレビューは時間と労力を要するプロセスです。
既存のセキュリティ分析ツールは、一般化の貧弱、偽陽性率の高い、粗い検出粒度に悩まされている。
大きな言語モデル(LLM)は、これらの課題に対処するための有望な候補と考えられている。
論文 参考訳(メタデータ) (2024-01-29T17:13:44Z) - LLM4Vuln: A Unified Evaluation Framework for Decoupling and Enhancing LLMs' Vulnerability Reasoning [20.463200377413255]
大規模言語モデル(LLM)は、脆弱性検出を含む様々なタスクにおいて大きな可能性を証明している。
本稿では,LLMの脆弱性推論を,脆弱性知識の採用など他の機能から分離することを目的とする。
我々は,SolidityとJavaにおける97の地層破壊脆弱性と97の非脆弱性ケースを用いて実験を行った。
論文 参考訳(メタデータ) (2024-01-29T14:32:27Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。