Fugu-MT 論文翻訳(概要): LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs

論文の概要: LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs

arxiv url: http://arxiv.org/abs/2410.14182v1
Date: Fri, 18 Oct 2024 05:21:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.33431
Title: LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs
Title（参考訳）: LabSafety Bench:Scientific Labsの安全性問題に関するLLMのベンチマーク
Authors: Yujun Zhou, Jingdong Yang, Kehan Guo, Pin-Yu Chen, Tian Gao, Werner Geyer, Nuno Moniz, Nitesh V Chawla, Xiangliang Zhang,
Abstract要約: 実験室の事故は人命と財産に重大なリスクをもたらす。安全訓練の進歩にもかかわらず、実験員はいまだに無意識に安全でない慣行に従事している可能性がある。様々な分野におけるガイダンスのための大きな言語モデル(LLM)に対する懸念が高まっている。
参考スコア（独自算出の注目度）: 80.45174785447136
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Laboratory accidents pose significant risks to human life and property, underscoring the importance of robust safety protocols. Despite advancements in safety training, laboratory personnel may still unknowingly engage in unsafe practices. With the increasing reliance on large language models (LLMs) for guidance in various fields, including laboratory settings, there is a growing concern about their reliability in critical safety-related decision-making. Unlike trained human researchers, LLMs lack formal lab safety education, raising questions about their ability to provide safe and accurate guidance. Existing research on LLM trustworthiness primarily focuses on issues such as ethical compliance, truthfulness, and fairness but fails to fully cover safety-critical real-world applications, like lab safety. To address this gap, we propose the Laboratory Safety Benchmark (LabSafety Bench), a comprehensive evaluation framework based on a new taxonomy aligned with Occupational Safety and Health Administration (OSHA) protocols. This benchmark includes 765 multiple-choice questions verified by human experts, assessing LLMs and vision language models (VLMs) performance in lab safety contexts. Our evaluations demonstrate that while GPT-4o outperforms human participants, it is still prone to critical errors, highlighting the risks of relying on LLMs in safety-critical environments. Our findings emphasize the need for specialized benchmarks to accurately assess the trustworthiness of LLMs in real-world safety applications.
Abstract（参考訳）: 実験室の事故は人命と財産に重大なリスクをもたらし、堅牢な安全プロトコルの重要性を強調している。安全訓練の進歩にもかかわらず、実験員はいまだに無意識に安全でない慣行に従事している可能性がある。実験室の設定を含む様々な分野における指導のための大規模言語モデル (LLM) への依存度が高まっているため、重要な安全関連意思決定における信頼性への懸念が高まっている。訓練された人間の研究者とは異なり、LSMは正式な実験室の安全教育を欠き、安全で正確なガイダンスを提供する能力について疑問を呈している。 LLMの信頼性に関する既存の研究は、主に倫理的コンプライアンス、誠実さ、公正さといった問題に焦点を当てているが、実験室の安全性のような安全性に不可欠な現実世界の応用を完全にカバーすることができない。このギャップに対処するため,Occupational Safety and Health Administration(OSHA)プロトコルに沿った新しい分類基準に基づく総合的な評価枠組みであるLab Safety Benchmark(LabSafety Bench)を提案する。このベンチマークには、人間の専門家が検証した765の多重選択質問が含まれており、実験室の安全状況下でのLLMとビジョン言語モデル(VLM)のパフォーマンスを評価している。評価の結果, GPT-4oは人体より優れているが, 安全性に問題のある環境において, LLMに依存するリスクを浮き彫りにしている。本研究は, LLMの信頼性を精度よく評価するための専門ベンチマークの必要性を強調した。

関連論文リスト

SafeSci: Safety Evaluation of Large Language Models in Science Domains and Beyond [134.43113804188195]
安全評価と科学的文脈の強化のための包括的枠組みであるSafeSciを紹介する。 SafeSciには、0.25Mサンプルを持つマルチディシプリナのベンチマークであるSafeSciBenchと、安全性向上のための1.5Mサンプルを含む大規模データセットであるSafeSciTrainが含まれている。
論文参考訳（メタデータ） (2026-03-02T08:16:04Z)
Automated Safety Benchmarking: A Multi-agent Pipeline for LVLMs [61.01470415470677]
大規模視覚言語モデル(LVLM)は、クロスモーダルタスクにおいて顕著な能力を示すが、重大な安全性上の課題に直面している。既存のベンチマークは、労働集約的な建設プロセス、静的な複雑さ、限定的な差別力によって妨げられている。 LVLMの安全性ベンチマークのための最初の自動システムであるVLSafetyBencherを提案する。
論文参考訳（メタデータ） (2026-01-27T11:51:30Z)
MADRA: Multi-Agent Debate for Risk-Aware Embodied Planning [3.058137447286947]
既存の方法は、選好調整トレーニングや、単一エージェントの安全プロンプトを使用する場合のオーバーリジェクションによって、高い計算コストに悩まされることが多い。トレーニング不要なマルチエージェント議論リスクアセスメントフレームワークMADRAを提案する。私たちの仕事は、信頼できるエンボディエージェントを構築するためのスケーラブルでモデルに依存しないソリューションを提供します。
論文参考訳（メタデータ） (2025-11-26T14:51:37Z)
OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文参考訳（メタデータ） (2025-07-08T16:18:54Z)
AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions [64.85086226439954]
本稿では,有害な指示に対するVLMエージェントの安全性を評価するためのベンチマークであるSAFEを提案する。 SAFEは、SAFE−THOR、SAFE−VERSE、SAFE−DIAGNOSEの3つの成分からなる。我々は、ハザード認識を安全な計画と実行に翻訳する体系的な失敗を明らかにする。
論文参考訳（メタデータ） (2025-06-17T16:37:35Z)
SOSBENCH: Benchmarking Safety Alignment on Scientific Knowledge [11.63268709958876]
SOSBenchは、大規模な言語モデルのための規制対象のハザード中心のベンチマークである。化学、生物学、医学、薬理学、物理学、心理学の6つのリスクの高い分野をカバーしている。 SOSBenchを用いた統合評価フレームワークにおけるフロンティアモデルの評価を行った。
論文参考訳（メタデータ） (2025-05-27T17:47:08Z)
Beyond Safe Answers: A Benchmark for Evaluating True Risk Awareness in Large Reasoning Models [29.569220030102986]
textbfBeyond Safe Answers (BSA) ベンチは,3つの異なるSSAシナリオタイプに構成された2,000のチャレンジインスタンスからなる,新しいベンチマークである。 19の最先端のLEMの評価では、このベンチマークの難しさが示され、最高性能のモデルはリスクの合理性を正確に識別する上で、わずか38.0%の精度しか達成していない。我々の研究は、LEMの安全性推論の忠実さを評価し改善するための総合的な評価ツールを提供し、真にリスクを意識し、確実に安全なAIシステムの開発を進める。
論文参考訳（メタデータ） (2025-05-26T08:49:19Z)
A Framework for Benchmarking and Aligning Task-Planning Safety in LLM-Based Embodied Agents [13.225168384790257]
大規模言語モデル(LLM)は、エンボディエージェント内のタスク計画能力を向上する上で大きな可能性を秘めている。我々は, LLMをベースとしたエンボディエージェントの挙動を, セーフプランベンチとアライメントのための統合フレームワークであるSafe-BeAlを提案する。我々の経験的分析によると、敵対的な入力や悪意がなくても、LSMベースのエージェントは安全でない行動を示すことができる。
論文参考訳（メタデータ） (2025-04-20T15:12:14Z)
Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するための総合ベンチマークであるAgent-SafetyBenchを紹介する。 Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。 16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文参考訳（メタデータ） (2024-12-19T02:35:15Z)
Responsible AI in Construction Safety: Systematic Evaluation of Large Language Models and Prompt Engineering [9.559203170987598]
建設は依然として最も危険な分野の1つである。 AIの最近の進歩、特にLarge Language Models (LLMs)は、職場の安全性を高めるための有望な機会を提供する。本研究は、認定安全専門家委員会(BCSP)が実施する3つの基準試験において、広く使用されている2つのLCM(GPT-3.5とGPT-4o)の性能を評価する。
論文参考訳（メタデータ） (2024-11-13T04:06:09Z)
CFSafety: Comprehensive Fine-grained Safety Assessment for LLMs [4.441767341563709]
5つの古典的安全シナリオと5種類の命令攻撃を統合した安全評価ベンチマークCFSafetyを導入する。このテストセットは、大規模言語モデル(LLM)の自然言語生成能力を評価するために使用された。その結果, GPT-4は安全性能に優れていたが, このモデルを含むLLMの安全性は改善が必要であることがわかった。
論文参考訳（メタデータ） (2024-10-29T03:25:20Z)
SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文参考訳（メタデータ） (2024-10-24T17:14:40Z)
SciSafeEval: A Comprehensive Benchmark for Safety Alignment of Large Language Models in Scientific Tasks [36.99233361224705]
大規模言語モデル(LLM)は、生物学、化学、医学、物理学など、様々な分野の科学的なタスクに変化をもたらした。既存のベンチマークは主にテキストの内容に焦点を当て、分子、タンパク質、ゲノム言語などの重要な科学的表現を見渡す。 SciSafeEvalは, LLMの安全アライメントを, 様々な科学的タスクで評価するためのベンチマークである。
論文参考訳（メタデータ） (2024-10-02T16:34:48Z)
EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文参考訳（メタデータ） (2024-08-08T13:19:37Z)
Safety-Driven Deep Reinforcement Learning Framework for Cobots: A Sim2Real Approach [1.0488553716155147]
本研究では,深部強化学習(DRL)におけるロボットシミュレーションに安全性制約を取り入れた新しい手法を提案する。このフレームワークは、速度制約のような安全要件の特定の部分をDRLモデルに直接統合する。提案手法は,テストシナリオの平均成功率を16.5%向上させる。
論文参考訳（メタデータ） (2024-07-02T12:56:17Z)
ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文参考訳（メタデータ） (2024-04-06T15:01:47Z)
Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [65.77763092833348]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。彼らの能力は有望だが、これらのエージェントは安全性を慎重に考慮する必要がある新たな脆弱性も導入している。本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文参考訳（メタデータ） (2024-02-06T18:54:07Z)
The Art of Defending: A Systematic Evaluation and Analysis of LLM Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文参考訳（メタデータ） (2023-12-30T17:37:06Z)
Identifying the Risks of LM Agents with an LM-Emulated Sandbox [68.26587052548287]
言語モデル(LM)エージェントとツールは、豊富な機能セットを可能にすると同時に、潜在的なリスクを増幅する。これらのエージェントを高いコストでテストすることは、高いリスクと長い尾のリスクを見つけるのをますます困難にします。ツール実行をエミュレートするためにLMを使用し、さまざまなツールやシナリオに対してLMエージェントのテストを可能にするフレームワークであるToolEmuを紹介します。
論文参考訳（メタデータ） (2023-09-25T17:08:02Z)
SafetyBench: Evaluating the Safety of Large Language Models [54.878612385780805]
SafetyBenchは、大規模言語モデル(LLM)の安全性を評価するための包括的なベンチマークである。 11,435 の多様な選択質問が 7 つの異なるカテゴリーの安全問題にまたがっている。ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回以上テストしたところ、GPT-4よりも大幅にパフォーマンス上の優位性を示しました。
論文参考訳（メタデータ） (2023-09-13T15:56:50Z)
Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文参考訳（メタデータ） (2023-04-20T16:27:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。