論文の概要: Quantifying CBRN Risk in Frontier Models
- arxiv url: http://arxiv.org/abs/2510.21133v1
- Date: Fri, 24 Oct 2025 03:55:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.379056
- Title: Quantifying CBRN Risk in Frontier Models
- Title(参考訳): フロンティアモデルにおけるCBRNリスクの定量化
- Authors: Divyanshu Kumar, Nitin Aravind Birur, Tanay Baswa, Sahil Agarwal, Prashanth Harshangi,
- Abstract要約: Frontier Large Language Models (LLMs) は、化学、生物学的、放射線学、核(CBRN)の兵器知識の潜在的な増殖を通じて、前例のない二重使用のリスクを生じさせる。
本稿では,新しいCBRNデータセットとFORTESSベンチマークの180-promptサブセットに対して,商業用LLM10の総合評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Frontier Large Language Models (LLMs) pose unprecedented dual-use risks through the potential proliferation of chemical, biological, radiological, and nuclear (CBRN) weapons knowledge. We present the first comprehensive evaluation of 10 leading commercial LLMs against both a novel 200-prompt CBRN dataset and a 180-prompt subset of the FORTRESS benchmark, using a rigorous three-tier attack methodology. Our findings expose critical safety vulnerabilities: Deep Inception attacks achieve 86.0\% success versus 33.8\% for direct requests, demonstrating superficial filtering mechanisms; Model safety performance varies dramatically from 2\% (claude-opus-4) to 96\% (mistral-small-latest) attack success rates; and eight models exceed 70\% vulnerability when asked to enhance dangerous material properties. We identify fundamental brittleness in current safety alignment, where simple prompt engineering techniques bypass safeguards for dangerous CBRN information. These results challenge industry safety claims and highlight urgent needs for standardized evaluation frameworks, transparent safety metrics, and more robust alignment techniques to mitigate catastrophic misuse risks while preserving beneficial capabilities.
- Abstract(参考訳): Frontier Large Language Models (LLMs) は、化学、生物学的、放射線学、核(CBRN)の兵器知識の潜在的な増殖を通じて、前例のない二重使用のリスクを生じさせる。
我々は、厳密な3層攻撃手法を用いて、新しい200-prompt CBRNデータセットと180-promptサブセットのFORTESSベンチマークに対する10の商用LCMの総合的な評価を行った。
ディープ・インセプション・アタック(Deep Inception attack)は、直接要求に対して86.0\%の成功を達成し、表面的フィルタリング機構を示す33.8\%、モデル安全性能は2\%(クロード・オプス4)から96\%(ミストラル・スモール・ラスト)の攻撃成功率に劇的に変化し、8つのモデルは危険な物質特性を高めるために70%以上の脆弱性を達成している。
我々は,現在の安全アライメントにおける基本的な脆さを同定し,CBRN情報に対する安全ガードをバイパスする簡単な技術技術を提案する。
これらの結果は、業界安全の主張に挑戦し、標準化された評価フレームワーク、透明性のある安全性指標、そしてより堅牢なアライメント技術に対する緊急の要求を強調し、有害な能力を保ちながら破滅的な誤用リスクを軽減する。
関連論文リスト
- Circumventing Safety Alignment in Large Language Models Through Embedding Space Toxicity Attenuation [13.971909819796762]
大規模言語モデル(LLM)は、医療、教育、サイバーセキュリティといった分野で大きな成功を収めている。
埋め込み空間中毒は、敵が入力データの内部意味表現を操作して安全アライメント機構をバイパスする微妙な攻撃ベクトルである。
本稿では,線形変換による埋め込み空間における毒性感受性次元の同定と減衰を行う新しいフレームワークETTAを提案する。
論文 参考訳(メタデータ) (2025-07-08T03:01:00Z) - Beyond Reactive Safety: Risk-Aware LLM Alignment via Long-Horizon Simulation [69.63626052852153]
本稿では,モデル生成によるアドバイスが社会システムを通じてどのように伝播するかを示す概念実証フレームワークを提案する。
また、100の間接的な害シナリオのデータセットを導入し、害のないユーザプロンプトから有害で非有害な結果を予測するモデルの能力をテストする。
論文 参考訳(メタデータ) (2025-06-26T02:28:58Z) - FORTRESS: Frontier Risk Evaluation for National Security and Public Safety [5.544163262906087]
現在のベンチマークは、国家の安全と公共の安全リスクに対する安全の堅牢性をテストするのに失敗することが多い。
forTRESS:500人の専門家による敵のプロンプトと4-7のバイナリー質問のインスタンスベースのルーリックについて紹介する。
各プロンプト-ルブリックペアは、モデルオーバーリフレクションをテストするための対応する良性バージョンを持つ。
論文 参考訳(メタデータ) (2025-06-17T19:08:02Z) - SOSBENCH: Benchmarking Safety Alignment on Scientific Knowledge [11.63268709958876]
SOSBenchは、大規模な言語モデルのための規制対象のハザード中心のベンチマークである。
化学、生物学、医学、薬理学、物理学、心理学の6つのリスクの高い分野をカバーしている。
SOSBenchを用いた統合評価フレームワークにおけるフロンティアモデルの評価を行った。
論文 参考訳(メタデータ) (2025-05-27T17:47:08Z) - Safety Pretraining: Toward the Next Generation of Safe AI [68.99129474671282]
モデルの安全性を最初から構築する,データ中心の事前トレーニングフレームワークを提案する。
我々のフレームワークは、セーフティフィルタリング、セーフティリフレージング、Native Refusal、Harmfulness-Tag Annotated Pretrainingの4つの重要なステップで構成されています。
我々の安全事前訓練モデルでは、一般的な劣化タスクのパフォーマンスを伴わない標準LLM安全性ベンチマークにおいて、攻撃成功率を38.8%から8.4%に下げている。
論文 参考訳(メタデータ) (2025-04-23T17:58:08Z) - An Approach to Technical AGI Safety and Security [72.83728459135101]
我々は、人類を著しく傷つけるのに十分な害のリスクに対処するアプローチを開発する。
私たちは、誤用や悪用に対する技術的なアプローチに重点を置いています。
これらの成分を組み合わせてAGIシステムの安全性を実現する方法について概説する。
論文 参考訳(メタデータ) (2025-04-02T15:59:31Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - OR-Bench: An Over-Refusal Benchmark for Large Language Models [65.34666117785179]
大きな言語モデル(LLM)は、悪意のある出力を防ぐために慎重に安全アライメントを必要とする。
本研究では,大規模なオーバーリファレンスデータセットの自動生成手法を提案する。
OR-Benchは,最初の大規模オーバーリファレンスベンチマークである。
論文 参考訳(メタデータ) (2024-05-31T15:44:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。