論文の概要: SOSBENCH: Benchmarking Safety Alignment on Scientific Knowledge
- arxiv url: http://arxiv.org/abs/2505.21605v1
- Date: Tue, 27 May 2025 17:47:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.207693
- Title: SOSBENCH: Benchmarking Safety Alignment on Scientific Knowledge
- Title(参考訳): SOSBENCH:科学知識に基づく安全アライメントのベンチマーク
- Authors: Fengqing Jiang, Fengbo Ma, Zhangchen Xu, Yuetai Li, Bhaskar Ramasubramanian, Luyao Niu, Bo Li, Xianyan Chen, Zhen Xiang, Radha Poovendran,
- Abstract要約: SOSBenchは、大規模な言語モデルのための規制対象のハザード中心のベンチマークである。
化学、生物学、医学、薬理学、物理学、心理学の6つのリスクの高い分野をカバーしている。
SOSBenchを用いた統合評価フレームワークにおけるフロンティアモデルの評価を行った。
- 参考スコア(独自算出の注目度): 11.63268709958876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) exhibit advancing capabilities in complex tasks, such as reasoning and graduate-level question answering, yet their resilience against misuse, particularly involving scientifically sophisticated risks, remains underexplored. Existing safety benchmarks typically focus either on instructions requiring minimal knowledge comprehension (e.g., ``tell me how to build a bomb") or utilize prompts that are relatively low-risk (e.g., multiple-choice or classification tasks about hazardous content). Consequently, they fail to adequately assess model safety when handling knowledge-intensive, hazardous scenarios. To address this critical gap, we introduce SOSBench, a regulation-grounded, hazard-focused benchmark encompassing six high-risk scientific domains: chemistry, biology, medicine, pharmacology, physics, and psychology. The benchmark comprises 3,000 prompts derived from real-world regulations and laws, systematically expanded via an LLM-assisted evolutionary pipeline that introduces diverse, realistic misuse scenarios (e.g., detailed explosive synthesis instructions involving advanced chemical formulas). We evaluate frontier models within a unified evaluation framework using our SOSBench. Despite their alignment claims, advanced models consistently disclose policy-violating content across all domains, demonstrating alarmingly high rates of harmful responses (e.g., 79.1% for Deepseek-R1 and 47.3% for GPT-4.1). These results highlight significant safety alignment deficiencies and underscore urgent concerns regarding the responsible deployment of powerful LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、推論や大学院レベルの質問応答などの複雑なタスクにおいて進歩する能力を示すが、特に科学的に洗練されたリスクを含む誤用に対する耐性は未解明のままである。
既存の安全ベンチマークは通常、最小限の知識理解を必要とする命令(例: ``tell me build a bomb)に焦点を当てるか、比較的リスクの低いプロンプト(例:複数選択または有害なコンテンツに関する分類タスク)を利用する。
その結果、知識集約的で有害なシナリオを扱う場合、モデル安全性を適切に評価することができない。
SOSBenchは、化学、生物学、医学、薬理学、物理学、心理学の6つのリスクの高い科学的領域を網羅した、規制対象の危険に焦点を当てたベンチマークです。
このベンチマークは、現実の規則や法則から派生した3000のプロンプトで構成され、LLMによる進化的パイプラインを通じて体系的に拡張され、多様な現実的な誤用シナリオ(例えば、先進的な化学式を含む詳細な爆薬合成命令)を導入している。
SOSBenchを用いた統合評価フレームワークにおけるフロンティアモデルの評価を行った。
アライメントの主張にもかかわらず、先進的なモデルは、すべてのドメインにわたるポリシー違反のコンテンツを一貫して明らかにし、有害な反応(例えば、Deepseek-R1では79.1%、GPT-4.1では47.3%)が驚くほど高い率で示された。
これらの結果は、強力なLCMの配備に責任を負うことに対する重大な安全性の欠如と緊急の懸念を浮き彫りにしている。
関連論文リスト
- Beyond Safe Answers: A Benchmark for Evaluating True Risk Awareness in Large Reasoning Models [29.569220030102986]
textbfBeyond Safe Answers (BSA) ベンチは,3つの異なるSSAシナリオタイプに構成された2,000のチャレンジインスタンスからなる,新しいベンチマークである。
19の最先端のLEMの評価では、このベンチマークの難しさが示され、最高性能のモデルはリスクの合理性を正確に識別する上で、わずか38.0%の精度しか達成していない。
我々の研究は、LEMの安全性推論の忠実さを評価し改善するための総合的な評価ツールを提供し、真にリスクを意識し、確実に安全なAIシステムの開発を進める。
論文 参考訳(メタデータ) (2025-05-26T08:49:19Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [65.77763092833348]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。
彼らの能力は有望だが、これらのエージェントは安全性を慎重に考慮する必要がある新たな脆弱性も導入している。
本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z) - Foveate, Attribute, and Rationalize: Towards Physically Safe and
Trustworthy AI [76.28956947107372]
包括的不安全テキストは、日常的なシナリオから生じる可能性のある特定の関心領域であり、有害なテキストを検出するのが困難である。
安全の文脈において、信頼に値する合理的な生成のために外部知識を活用する新しいフレームワークであるFARMを提案する。
実験の結果,FARMはSafeTextデータセットの最先端結果を得ることができ,安全性の分類精度が5.9%向上したことがわかった。
論文 参考訳(メタデータ) (2022-12-19T17:51:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。