論文の概要: LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs
- arxiv url: http://arxiv.org/abs/2410.14182v2
- Date: Wed, 26 Feb 2025 09:17:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:54:32.550139
- Title: LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs
- Title(参考訳): LabSafety Bench:Scientific Labsの安全性問題に関するLLMのベンチマーク
- Authors: Yujun Zhou, Jingdong Yang, Yue Huang, Kehan Guo, Zoe Emory, Bikram Ghosh, Amita Bedar, Sujay Shekar, Pin-Yu Chen, Tian Gao, Werner Geyer, Nuno Moniz, Nitesh V Chawla, Xiangliang Zhang,
- Abstract要約: 人工知能(AI)は科学研究に革命をもたらしていますが、実験室環境への統合が進むと、重要な安全上の課題が浮かび上がっています。
大規模言語モデル(LLM)は、手続き的なガイダンスから自律的な実験オーケストレーションまで、タスクをますます支援している。
このような過度な信頼性は、リスク識別やリスクアセスメントの失敗が重大事故を引き起こすような高リスクな実験室環境では特に危険である。
本研究では,LLM とビジョン言語モデル (VLM) を評価する総合的なフレームワークであるLab Safety Benchmark (LabSafety Bench) を提案する。
- 参考スコア(独自算出の注目度): 75.85283891591678
- License:
- Abstract: Artificial Intelligence (AI) is revolutionizing scientific research, yet its growing integration into laboratory environments presents critical safety challenges. While large language models (LLMs) increasingly assist in tasks ranging from procedural guidance to autonomous experiment orchestration, an "illusion of understanding" may lead researchers to overestimate their reliability. Such overreliance is especially hazardous in high-stakes laboratory settings, where failures in hazard identification or risk assessment can result in severe accidents. To address these concerns, we propose the Laboratory Safety Benchmark (LabSafety Bench), a comprehensive framework that evaluates LLMs and vision language models (VLMs) on their ability to identify potential hazards, assess risks, and predict the consequences of unsafe actions in lab environments. LabSafety Bench comprises 765 multiple-choice questions aligned with US Occupational Safety and Health Administration (OSHA) protocols, along with 520 realistic laboratory scenarios featuring dual evaluation tasks: the Hazards Identification Test and the Consequence Identification Test, with 4090 open-ended questions in total. Evaluations across eight proprietary models, seven open-weight LLMs, and four VLMs reveal that, despite advanced performance on structured assessments, no model achieves the safety threshold required for reliable operation. None scored above 75% on the Hazards Identification Test. Moreover, while proprietary models tend to excel in multiple-choice evaluations, their performance in open-ended, real-world scenario responses is comparable to that of open-source models. These findings underscore the urgent need for specialized evaluation frameworks to ensure the safe and responsible deployment of AI in laboratory settings.
- Abstract(参考訳): 人工知能(AI)は科学研究に革命をもたらしていますが、実験室環境への統合が進むと、重要な安全上の課題が浮かび上がっています。
大規模言語モデル(LLM)は、手続き的指導から自律的な実験オーケストレーションまでタスクを補助する傾向にあるが、「理解のイリュージョン」は研究者の信頼性を過大に見積もる可能性がある。
このような過度な信頼性は、リスク識別やリスクアセスメントの失敗が重大事故を引き起こすような高リスクな実験室環境では特に危険である。
これらの問題に対処するため,実験室安全ベンチマーク (LabSafety Bench) を提案する。このフレームワークは,LLMとビジョン言語モデル(VLM)を,潜在的な危険を識別し,リスクを評価し,実験室環境における安全でない行動の結果を予測するための総合的なフレームワークである。
LabSafety Benchは、US Occupational Safety and Health Administration (OSHA)プロトコルに準拠した765の多重選択質問と、2つの評価タスクを含む520の現実的な実験シナリオで構成されている。
8つのプロプライエタリなモデル、7つのオープンウェイトLDM、および4つのVLMによる評価は、構造化されたアセスメントの高度な性能にもかかわらず、信頼性の高い操作に必要な安全しきい値を達成するモデルは存在しないことを示した。
ハザーズ識別テストでは75%を超えなかった。
さらに、プロプライエタリなモデルは複数の選択評価に優れる傾向にあるが、オープンソースのシナリオレスポンスのパフォーマンスは、オープンソースモデルと同等である。
これらの知見は、実験室環境におけるAIの安全かつ責任ある展開を保証するための、特別な評価フレームワークの緊急の必要性を浮き彫りにした。
関連論文リスト
- Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するための総合ベンチマークであるAgent-SafetyBenchを紹介する。
Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。
16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文 参考訳(メタデータ) (2024-12-19T02:35:15Z) - Responsible AI in Construction Safety: Systematic Evaluation of Large Language Models and Prompt Engineering [9.559203170987598]
建設は依然として最も危険な分野の1つである。
AIの最近の進歩、特にLarge Language Models (LLMs)は、職場の安全性を高めるための有望な機会を提供する。
本研究は、認定安全専門家委員会(BCSP)が実施する3つの基準試験において、広く使用されている2つのLCM(GPT-3.5とGPT-4o)の性能を評価する。
論文 参考訳(メタデータ) (2024-11-13T04:06:09Z) - CFSafety: Comprehensive Fine-grained Safety Assessment for LLMs [4.441767341563709]
5つの古典的安全シナリオと5種類の命令攻撃を統合した安全評価ベンチマークCFSafetyを導入する。
このテストセットは、大規模言語モデル(LLM)の自然言語生成能力を評価するために使用された。
その結果, GPT-4は安全性能に優れていたが, このモデルを含むLLMの安全性は改善が必要であることがわかった。
論文 参考訳(メタデータ) (2024-10-29T03:25:20Z) - SciSafeEval: A Comprehensive Benchmark for Safety Alignment of Large Language Models in Scientific Tasks [36.99233361224705]
大規模言語モデル(LLM)は、生物学、化学、医学、物理学など、様々な分野の科学的なタスクに変革をもたらす。
既存のベンチマークは主にテキストの内容に焦点を当て、分子、タンパク質、ゲノム言語などの重要な科学的表現を見渡す。
SciSafeEvalは, LLMの安全アライメントを, 様々な科学的タスクで評価するためのベンチマークである。
論文 参考訳(メタデータ) (2024-10-02T16:34:48Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [65.77763092833348]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。
彼らの能力は有望だが、これらのエージェントは安全性を慎重に考慮する必要がある新たな脆弱性も導入している。
本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。