論文の概要: Forbidden Science: Dual-Use AI Challenge Benchmark and Scientific Refusal Tests
- arxiv url: http://arxiv.org/abs/2502.06867v1
- Date: Sat, 08 Feb 2025 04:27:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:10:19.884475
- Title: Forbidden Science: Dual-Use AI Challenge Benchmark and Scientific Refusal Tests
- Title(参考訳): 禁止科学:デュアルユースAIチャレンジベンチマークと科学的拒絶テスト
- Authors: David Noever, Forrest McKee,
- Abstract要約: 本稿では,主に制御された物質問合せの安全メカニズムを評価するための,オープンソースのデータセットとテストフレームワークを提案する。
系統的に異なるプロンプトに対する4つの主要モデルの反応を解析した。
Claude-3.5-sonnetは73%の拒絶と27%の許容率で最も保守的なアプローチを示し、Mistralは100%のクエリに答えようとした。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The development of robust safety benchmarks for large language models requires open, reproducible datasets that can measure both appropriate refusal of harmful content and potential over-restriction of legitimate scientific discourse. We present an open-source dataset and testing framework for evaluating LLM safety mechanisms across mainly controlled substance queries, analyzing four major models' responses to systematically varied prompts. Our results reveal distinct safety profiles: Claude-3.5-sonnet demonstrated the most conservative approach with 73% refusals and 27% allowances, while Mistral attempted to answer 100% of queries. GPT-3.5-turbo showed moderate restriction with 10% refusals and 90% allowances, and Grok-2 registered 20% refusals and 80% allowances. Testing prompt variation strategies revealed decreasing response consistency, from 85% with single prompts to 65% with five variations. This publicly available benchmark enables systematic evaluation of the critical balance between necessary safety restrictions and potential over-censorship of legitimate scientific inquiry, while providing a foundation for measuring progress in AI safety implementation. Chain-of-thought analysis reveals potential vulnerabilities in safety mechanisms, highlighting the complexity of implementing robust safeguards without unduly restricting desirable and valid scientific discourse.
- Abstract(参考訳): 大規模言語モデルの堅牢な安全性ベンチマークの開発には、有害な内容の適切な拒絶と、正当な科学的言説の過剰な制限を計測できるオープンで再現可能なデータセットが必要である。
本稿では,主に制御された物質問合せにおけるLCMの安全性メカニズムを評価するためのオープンソースのデータセットとテストフレームワークについて,系統的に異なるプロンプトに対する4つの主要なモデルの応答を解析する。
Claude-3.5-sonnetは73%の拒絶と27%の許容率で最も保守的なアプローチを示し、Mistralは100%のクエリに答えようとした。
GPT-3.5-turboは10%の拒絶率、90%の許容率、Grok-2は20%の拒絶率、80%の許容率で適度な制限を示した。
テストプロンプト変更戦略では,応答一貫性が85%から5変量65%に低下した。
この公開ベンチマークは、必要な安全制限と正当な科学的調査の過剰検閲の間の重要なバランスを体系的に評価し、AI安全実装の進捗を計測する基盤を提供する。
チェーンオブ思考分析は、安全メカニズムの潜在的な脆弱性を明らかにし、望ましい科学的言説を不当に制限することなく堅牢な安全ガードを実装する複雑さを強調している。
関連論文リスト
- SoK: Understanding Vulnerabilities in the Large Language Model Supply Chain [8.581429744090316]
この研究は、13のライフサイクルステージにまたがる75の著名なプロジェクトにわたって報告された529の脆弱性を体系的に分析する。
その結果、脆弱性はアプリケーション(50.3%)とモデル(42.7%)に集中していることがわかった。
脆弱性の56.7%が修正されているが、これらのパッチの8%は効果がなく、繰り返し脆弱性が発生する。
論文 参考訳(メタデータ) (2025-02-18T03:22:38Z) - SmartLLM: Smart Contract Auditing using Custom Generative AI [0.0]
本稿では,LLaMA 3.1モデルにレトリーバル拡張生成(RAG)を応用した新しいアプローチであるSmartLLMを紹介する。
ERC標準からドメイン固有の知識を統合することで、SmartLLMはMythrilやSlitherのような静的解析ツールよりも優れたパフォーマンスを実現している。
実験の結果、100%の完全なリコールと70%の精度スコアが示され、脆弱性の特定におけるモデルの堅牢性を強調した。
論文 参考訳(メタデータ) (2025-02-17T06:22:05Z) - Responsible AI in Construction Safety: Systematic Evaluation of Large Language Models and Prompt Engineering [9.559203170987598]
建設は依然として最も危険な分野の1つである。
AIの最近の進歩、特にLarge Language Models (LLMs)は、職場の安全性を高めるための有望な機会を提供する。
本研究は、認定安全専門家委員会(BCSP)が実施する3つの基準試験において、広く使用されている2つのLCM(GPT-3.5とGPT-4o)の性能を評価する。
論文 参考訳(メタデータ) (2024-11-13T04:06:09Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs [54.10865585773691]
LLM安全性のためのオープンで軽量なモデレーションツールであるWildGuardを紹介します。
WildGuardは、ユーザプロンプトにおける悪意のある意図の特定、モデルレスポンスの安全性リスクの検出、モデル拒絶率の決定という3つの目標を達成する。
論文 参考訳(メタデータ) (2024-06-26T16:58:20Z) - MOSSBench: Is Your Multimodal Language Model Oversensitive to Safe Queries? [70.77691645678804]
人間は認知の歪みに傾向があり、特定の刺激に対する過大な反応を引き起こす偏見のある思考パターンがある。
本稿では,高度マルチモーダル言語モデル (MLLM) が同様の傾向を示すことを示す。
既存のMLLMの過敏性を引き起こす3種類の刺激を同定する。
論文 参考訳(メタデータ) (2024-06-22T23:26:07Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。
まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Uncertainty-Based Abstention in LLMs Improves Safety and Reduces Hallucinations [63.330182403615886]
大きな言語モデル(LLM)の実践的デプロイに対する大きな障壁は、信頼性の欠如である。
このことが特に顕著な3つの状況は、正しさ、未解決の質問に対する幻覚、安全性である。
人間のように、不確実性を理解する能力があるため、私たちが知らない質問への答えを控えるべきです。
論文 参考訳(メタデータ) (2024-04-16T23:56:38Z) - SimpleSafetyTests: a Test Suite for Identifying Critical Safety Risks in
Large Language Models [15.896567445646784]
このような重要な安全性リスクを迅速かつ体系的に識別するための新しいテストスイートとしてSimpleSafetyTests(SST)を紹介します。
テストスイートは、5つのハーネス領域にわたる100のテストプロンプトで構成されており、LLMは、ほとんどのアプリケーションにおいて、コンプライアンスを拒否すべきである。
いくつかのモデルは単一の安全でない応答を与えないが、ほとんどのモデルは20%以上のプロンプトに対して安全でない応答を与え、極端に50%以上の安全でない応答を与える。
論文 参考訳(メタデータ) (2023-11-14T18:33:43Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。