論文の概要: Model Capability Assessment and Safeguards for Biological Weaponization
- arxiv url: http://arxiv.org/abs/2604.19811v2
- Date: Thu, 23 Apr 2026 02:17:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.032416
- Title: Model Capability Assessment and Safeguards for Biological Weaponization
- Title(参考訳): 生物兵器化のためのモデル能力評価と安全対策
- Authors: Michael Richter,
- Abstract要約: AIのリーダーや安全レポートは、モデル推論の進歩が生物学的な誤用を引き起こす可能性があるとますます警告している。
今回はChatGPT 5.2 Auto, Gemini 3 Pro Thinking, Claude Opus 4.5, Meta's Muse Spark Thinking on 73 novice-framed, open-ended Benign STEM promptsをベンチマークした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI leaders and safety reports increasingly warn that advances in model reasoning may enable biological misuse, including by low-expertise users, while major labs describe safeguards as expanding but still evolving rather than settled. This study benchmarks ChatGPT 5.2 Auto, Gemini 3 Pro Thinking, Claude Opus 4.5 and Meta's Muse Spark Thinking on 73 novice-framed, open-ended benign STEM prompts to measure operational intelligence. On benign quantitative tasks, both Gemini and Meta scored very high; ChatGPT was partially useful but text-thinned, and Claude was sparsest with some apparent false-positive refusals. A second test set detected subtle harmful intent: edge case prompts revealed Gemini's seeming lack of contextual awareness. These results warranted a focused weaponization analysis on Gemini as capability appeared to be outpacing moderation calibration. Gemini was tested across four access environments and reported cases include poison-ivy-to-crowded-transit escalation, poison production and extraction via international-anonymous logged-out AI Mode, and other concerning examples. Biological misuse may become more prevalent as a geopolitical tool, increasing the urgency of U.S. policy responses, especially if model outputs come to be treated as regulated technical data. Guidance is provided for 25 high-risk agents to help distinguish legitimate use cases from higher-risk ones.
- Abstract(参考訳): AIのリーダーや安全レポートは、モデル推論の進歩が生物学的な誤用を可能にする可能性があるとますます警告している。
今回はChatGPT 5.2 Auto, Gemini 3 Pro Thinking, Claude Opus 4.5, Meta's Muse Spark Thinking on 73 novice-framed, open-ended Benign STEM prompts to Measurement Operation Intelligence。
Gemini と Meta はどちらも非常に高く評価され、ChatGPT は部分的には有用だが、テキストに染みがあり、Claude は明らかに偽陽性の拒絶に悩まされていた。
2つ目のテストセットは微妙な有害な意図を検知し、エッジケースのプロンプトにより、ジェミニの文脈認識の欠如が判明した。
これらの結果、ゲミニの兵器化分析はモデレーション・キャリブレーションを上回っているように見えた。
Geminiは4つのアクセス環境にまたがってテストされ、報告された事例には、毒素を蓄積するトランジットエスカレーション、国際匿名のログアウトAIモードによる毒の生産と抽出などが含まれる。
生物学的誤用は地政学的な道具として一般的になり、特にモデル出力が規制された技術データとして扱われるようになった場合、米国の政策対応の緊急性を高める。
25のハイリスクエージェントに対して、合法的なユースケースとハイリスクエージェントを区別するためのガイダンスが提供されている。
関連論文リスト
- Differential Harm Propensity in Personalized LLM Agents: The Curious Case of Mental Health Disclosure [5.511540698163254]
大規模言語モデル(LLM)はツール使用エージェントとしてますます普及し、安全上の懸念を有害なテキスト生成から有害なタスク完了へとシフトさせる。
本研究は,知的健康開示がエージェント環境における有害な行動にどのように影響するかを検討した。
以上の結果から,人格化は薬剤的誤用設定において弱い保護要因となるが,最小対向圧下では脆弱であることが示唆された。
論文 参考訳(メタデータ) (2026-03-17T16:16:35Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - Agents of Chaos [50.53354213047402]
実験室環境に展開する自律言語モデルを用いたエージェントの探索的再チームの研究を報告する。
20人のAI研究者が、良心的および敵対的な条件下でエージェントと対話した。
我々の発見は、現実的なデプロイメント設定におけるセキュリティ、プライバシ、ガバナンスに関連する脆弱性の存在を確立します。
論文 参考訳(メタデータ) (2026-02-23T16:28:48Z) - Explainable and Fine-Grained Safeguarding of LLM Multi-Agent Systems via Bi-Level Graph Anomaly Detection [76.91230292971115]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は複雑なタスクを解く上で強力な能力を示している。
XG-Guardは、MAS内の悪意のあるエージェントを検出するための、説明可能な、きめ細かい保護フレームワークである。
論文 参考訳(メタデータ) (2025-12-21T13:46:36Z) - Towards Evaluating Proactive Risk Awareness of Multimodal Language Models [39.44421152112219]
プロアクティブな安全人工知能(AI)システムは、リアクティブシステムよりもうまく機能する。
PaSBenchは416のマルチモーダルシナリオを通じてこの機能を評価する。
Gemini-2.5-proのようなトップパフォーマーは、71%のイメージと64%のテキスト精度を達成したが、繰り返しトライアルで45-55%のリスクを逃した。
論文 参考訳(メタデータ) (2025-05-23T04:28:47Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - Forensics-Bench: A Comprehensive Forgery Detection Benchmark Suite for Large Vision Language Models [53.55128042938329]
Forensics-Benchは、新しい偽検出評価ベンチマークスイートである。
63,292件の厳密にキュレートされたマルチチョイスの視覚的質問からなり、112件の独特な偽造検出をカバーしている。
GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnetの22のオープンソースLVLMと3つのプロプライエタリモデルについて徹底的な評価を行った。
論文 参考訳(メタデータ) (2025-03-19T09:21:44Z) - Gemini Goes to Med School: Exploring the Capabilities of Multimodal
Large Language Models on Medical Challenge Problems & Hallucinations [0.0]
我々はオープンソースとGoogleの新しいマルチモーダルLLMであるGeminiを総合的に評価した。
Geminiは能力を示したが、診断精度はMedPaLM 2やGPT-4のような最先端のモデルに遅れを取っていた。
ジェミニは幻覚、過信、知識のギャップに非常に敏感であり、不クリティカルに展開された場合のリスクを示す。
論文 参考訳(メタデータ) (2024-02-10T19:08:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。