論文の概要: A Biosecurity Agent for Lifecycle LLM Biosecurity Alignment
- arxiv url: http://arxiv.org/abs/2510.09615v1
- Date: Sat, 13 Sep 2025 23:54:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 05:23:07.124063
- Title: A Biosecurity Agent for Lifecycle LLM Biosecurity Alignment
- Title(参考訳): LLMバイオセキュリティアライメントのためのバイオセキュリティエージェント
- Authors: Meiyin Meng, Zaixi Zhang,
- Abstract要約: 本研究では,モデルライフサイクル全体で4つの調整モードで構成されるバイオセキュリティエージェントについて述べる。
データセットの衛生化(Mode 1)については、新型コロナウイルス関連記事のオープンリサーチデータセットであるCORD-19で評価を行う。
優先調整(Mode 2)では、LoRAアダプタを使用したDPOは拒絶や安全な完了を内部化し、エンドツーエンドの攻撃成功率(ASR)を59.7%から3.0%に下げる。
推論(Mode 3)では、L1-L3のランタイムガードレールは、期待されるセキュリティとユーザビリティのトレードオフを示している。
- 参考スコア(独自算出の注目度): 13.707244322057834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly integrated into biomedical research workflows--from literature triage and hypothesis generation to experimental design--yet this expanded utility also heightens dual-use concerns, including the potential misuse for guiding toxic compound synthesis. In response, this study shows a Biosecurity Agent that comprises four coordinated modes across the model lifecycle: dataset sanitization, preference alignment, run-time guardrails, and automated red teaming. For dataset sanitization (Mode 1), evaluation is conducted on CORD-19, a COVID-19 Open Research Dataset of coronavirus-related scholarly articles. We define three sanitization tiers--L1 (compact, high-precision), L2 (human-curated biosafety terms), and L3 (comprehensive union)--with removal rates rising from 0.46% to 70.40%, illustrating the safety-utility trade-off. For preference alignment (Mode 2), DPO with LoRA adapters internalizes refusals and safe completions, reducing end-to-end attack success rate (ASR) from 59.7% to 3.0%. At inference (Mode 3), run-time guardrails across L1-L3 show the expected security-usability trade-off: L2 achieves the best balance (F1 = 0.720, precision = 0.900, recall = 0.600, FPR =0.067), while L3 offers stronger jailbreak resistance at the cost of higher false positives. Under continuous automated red-teaming (Mode 4), no successful jailbreaks are observed under the tested protocol. Taken together, our biosecurity agent offers an auditable, lifecycle-aligned framework that reduces attack success while preserving benign utility, providing safeguards for the use of LLMs in scientific research and setting a precedent for future agent-level security protections.
- Abstract(参考訳): 大規模言語モデル(LLM)は、文学的トリアージや仮説生成から実験的設計に至るまで、生物医学的な研究ワークフローにますます統合されている。
そこで本研究では,データセットのサニタイズ,優先調整,実行時のガードレール,自動レッドチームリングという,モデルライフサイクル全体で4つの調整モードで構成されるバイオセキュリティエージェントについて検討した。
データセットの衛生化(Mode 1)については、新型コロナウイルス関連学術論文のオープンリサーチデータセットであるCORD-19で評価を行う。
本研究は,L1(コンパクト,高精度),L2(人為的な生物安全用語),L3(包括的連合)の3つの衛生層を定義し,その除去率を0.46%から70.40%に引き上げた。
優先調整(Mode 2)では、LoRAアダプタを使用したDPOは拒絶や安全な完了を内部化し、エンドツーエンドの攻撃成功率(ASR)を59.7%から3.0%に下げる。
L2は最高のバランス(F1 = 0.720, 精度 = 0.900, リコール = 0.600, FPR = 0.67)を達成し、L3は高い偽陽性を犠牲にしてより強いジェイルブレイク耐性を提供する。
継続的自動化された再チーム(Mode 4)では、テストされたプロトコルの下では、成功したジェイルブレイクは見られません。
我々のバイオセキュリティエージェントは、良質な実用性を維持しながら攻撃の成功を減らし、科学研究にLLMを使うことの安全を守り、将来のエージェントレベルのセキュリティ保護の先駆けとなる、監査可能なライフサイクル整合型フレームワークを提供する。
関連論文リスト
- ORFuzz: Fuzzing the "Other Side" of LLM Safety -- Testing Over-Refusal [27.26251627767238]
大規模言語モデル(LLM)は、過度に保守的な安全対策のため、誤って良心的なクエリーを拒否する過度な拒絶を示す。
本稿では,LLMオーバーリフレクションの系統的検出と解析を行うための,最初の進化的テストフレームワークORFuzzを紹介する。
論文 参考訳(メタデータ) (2025-08-15T05:03:26Z) - Retrieval Augmented Large Language Model System for Comprehensive Drug Contraindications [0.0]
大規模言語モデル(LLM)の汎用性は、様々な分野にわたって検討されてきたが、医療への応用には課題がある。
本研究では,レトリーバル拡張生成(RAG)パイプラインを実装することにより,LLMの対位法に効果的に対応する能力を高める。
論文 参考訳(メタデータ) (2025-08-08T09:09:03Z) - VSF-Med:A Vulnerability Scoring Framework for Medical Vision-Language Models [6.390468088226493]
VSF-Medは医療ビジョン言語モデル(VLM)のためのエンドツーエンドの脆弱性修正フレームワークである。
VSF-Medは5000個の放射線画像から3万以上の敵の変種を合成し、単一のコマンドで医療用VLMの再現可能なベンチマークを可能にする。
Llama-3.2-11B-Vision-Instructは、攻撃効果の持続性に対して1.29sigma$をピーク脆弱性として、GPT-4oは0.69sigma$を同じベクトルに対して0.28sigma$をピーク脆弱性として示す。
論文 参考訳(メタデータ) (2025-06-25T02:56:38Z) - CyberLLMInstruct: A Pseudo-malicious Dataset Revealing Safety-performance Trade-offs in Cyber Security LLM Fine-tuning [2.549390156222399]
大規模言語モデルのサイバーセキュリティアプリケーションへの統合は、機会と重要な安全リスクの両方を示します。
我々はサイバーセキュリティタスクにまたがる54,928の擬似重複命令応答ペアのデータセットであるCyberLLMInstructを紹介した。
論文 参考訳(メタデータ) (2025-03-12T12:29:27Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - ADVLLM: Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs [54.10865585773691]
LLM安全性のためのオープンで軽量なモデレーションツールであるWildGuardを紹介します。
WildGuardは、ユーザプロンプトにおける悪意のある意図の特定、モデルレスポンスの安全性リスクの検出、モデル拒絶率の決定という3つの目標を達成する。
論文 参考訳(メタデータ) (2024-06-26T16:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。