Fugu-MT 論文翻訳(概要): Forbidden Science: Dual-Use AI Challenge Benchmark and Scientific Refusal Tests

論文の概要: Forbidden Science: Dual-Use AI Challenge Benchmark and Scientific Refusal Tests

arxiv url: http://arxiv.org/abs/2502.06867v1
Date: Sat, 08 Feb 2025 04:27:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-12 18:22:47.761033
Title: Forbidden Science: Dual-Use AI Challenge Benchmark and Scientific Refusal Tests
Title（参考訳）: 禁止科学:デュアルユースAIチャレンジベンチマークと科学的拒絶テスト
Authors: David Noever, Forrest McKee,
Abstract要約: 本稿では,主に制御された物質問合せの安全メカニズムを評価するための,オープンソースのデータセットとテストフレームワークを提案する。系統的に異なるプロンプトに対する4つの主要モデルの反応を解析した。 Claude-3.5-sonnetは73%の拒絶と27%の許容率で最も保守的なアプローチを示し、Mistralは100%のクエリに答えようとした。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The development of robust safety benchmarks for large language models requires open, reproducible datasets that can measure both appropriate refusal of harmful content and potential over-restriction of legitimate scientific discourse. We present an open-source dataset and testing framework for evaluating LLM safety mechanisms across mainly controlled substance queries, analyzing four major models' responses to systematically varied prompts. Our results reveal distinct safety profiles: Claude-3.5-sonnet demonstrated the most conservative approach with 73% refusals and 27% allowances, while Mistral attempted to answer 100% of queries. GPT-3.5-turbo showed moderate restriction with 10% refusals and 90% allowances, and Grok-2 registered 20% refusals and 80% allowances. Testing prompt variation strategies revealed decreasing response consistency, from 85% with single prompts to 65% with five variations. This publicly available benchmark enables systematic evaluation of the critical balance between necessary safety restrictions and potential over-censorship of legitimate scientific inquiry, while providing a foundation for measuring progress in AI safety implementation. Chain-of-thought analysis reveals potential vulnerabilities in safety mechanisms, highlighting the complexity of implementing robust safeguards without unduly restricting desirable and valid scientific discourse.
Abstract（参考訳）: 大規模言語モデルの堅牢な安全性ベンチマークの開発には、有害な内容の適切な拒絶と、正当な科学的言説の過剰な制限を計測できるオープンで再現可能なデータセットが必要である。本稿では,主に制御された物質問合せにおけるLCMの安全性メカニズムを評価するためのオープンソースのデータセットとテストフレームワークについて,系統的に異なるプロンプトに対する4つの主要なモデルの応答を解析する。 Claude-3.5-sonnetは73%の拒絶と27%の許容率で最も保守的なアプローチを示し、Mistralは100%のクエリに答えようとした。 GPT-3.5-turboは10%の拒絶率、90%の許容率、Grok-2は20%の拒絶率、80%の許容率で適度な制限を示した。テストプロンプト変更戦略では,応答一貫性が85%から5変量65%に低下した。この公開ベンチマークは、必要な安全制限と正当な科学的調査の過剰検閲の間の重要なバランスを体系的に評価し、AI安全実装の進捗を計測する基盤を提供する。チェーンオブ思考分析は、安全メカニズムの潜在的な脆弱性を明らかにし、望ましい科学的言説を不当に制限することなく堅牢な安全ガードを実装する複雑さを強調している。

関連論文リスト

Confidence-Diversity Calibration of AI Judgement Enables Reliable Qualitative Coding [0.0]
10のテーマカテゴリにわたる8つの最先端のLCMから5,680のコーディング決定を分析する。標準化されたシャノンのエントロピーとしてモデルの多様性を定量化することにより、この単一のキューは、ほぼ完全に合意を説明するデュアルシグナルへと変換される。
論文参考訳（メタデータ） (2025-08-04T03:47:10Z)
Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。 LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文参考訳（メタデータ） (2025-07-30T08:44:22Z)
Beyond Reactive Safety: Risk-Aware LLM Alignment via Long-Horizon Simulation [69.63626052852153]
本稿では,モデル生成によるアドバイスが社会システムを通じてどのように伝播するかを示す概念実証フレームワークを提案する。また、100の間接的な害シナリオのデータセットを導入し、害のないユーザプロンプトから有害で非有害な結果を予測するモデルの能力をテストする。
論文参考訳（メタデータ） (2025-06-26T02:28:58Z)
Reasoning Models Are More Easily Gaslighted Than You Think [85.84943447589511]
我々はOpenAIのo4-mini、Claude-3.7-Sonnet、Gemini-2.5-Flashの3つの最先端推論モデルを評価する。ガス灯消火プロンプトによる精度低下が認められた。 GaslightingBench-Rは、推論モデルの認識可能性を評価するために設計された新しい診断ベンチマークである。
論文参考訳（メタデータ） (2025-06-11T12:52:25Z)
VADER: A Human-Evaluated Benchmark for Vulnerability Assessment, Detection, Explanation, and Remediation [0.8087612190556891]
VADERは174の現実世界のソフトウェア脆弱性で構成されており、それぞれがGitHubから慎重にキュレーションされ、セキュリティ専門家によって注釈付けされている。各脆弱性ケースに対して、モデルは欠陥を特定し、Common Weaknession(CWE)を使用して分類し、その根本原因を説明し、パッチを提案し、テストプランを策定する。ワンショットプロンプト戦略を用いて、VADER上で6つの最先端LCM(Claude 3.7 Sonnet, Gemini 2.5 Pro, GPT-4.1, GPT-4.5, Grok 3 Beta, o3)をベンチマークする。我々の結果は現在の状態を示している。
論文参考訳（メタデータ） (2025-05-26T01:20:44Z)
SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。特定のシナリオは、25倍の攻撃率を被る。 MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文参考訳（メタデータ） (2025-04-09T06:53:23Z)
Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文参考訳（メタデータ） (2025-03-06T15:36:06Z)
SoK: Understanding Vulnerabilities in the Large Language Model Supply Chain [8.581429744090316]
この研究は、13のライフサイクルステージにまたがる75の著名なプロジェクトにわたって報告された529の脆弱性を体系的に分析する。その結果、脆弱性はアプリケーション(50.3%)とモデル(42.7%)に集中していることがわかった。脆弱性の56.7%が修正されているが、これらのパッチの8%は効果がなく、繰り返し脆弱性が発生する。
論文参考訳（メタデータ） (2025-02-18T03:22:38Z)
Streamlining Security Vulnerability Triage with Large Language Models [0.786186571320448]
セキュリティバグの共通弱さ(CWE)の同定を自動化し,その重症度を評価する新しいアプローチであるCASEYを提案する。ケーシーはCWE識別精度68%、重度識別精度73.6%、組み合わせ精度51.2%を達成した。
論文参考訳（メタデータ） (2025-01-31T06:02:24Z)
Responsible AI in Construction Safety: Systematic Evaluation of Large Language Models and Prompt Engineering [9.559203170987598]
建設は依然として最も危険な分野の1つである。 AIの最近の進歩、特にLarge Language Models (LLMs)は、職場の安全性を高めるための有望な機会を提供する。本研究は、認定安全専門家委員会(BCSP)が実施する3つの基準試験において、広く使用されている2つのLCM(GPT-3.5とGPT-4o)の性能を評価する。
論文参考訳（メタデータ） (2024-11-13T04:06:09Z)
LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs [75.85283891591678]
人工知能(AI)は科学研究に革命をもたらしていますが、実験室環境への統合が進むと、重要な安全上の課題が浮かび上がっています。大規模言語モデル(LLM)は、手続き的なガイダンスから自律的な実験オーケストレーションまで、タスクをますます支援している。このような過度な信頼性は、リスク識別やリスクアセスメントの失敗が重大事故を引き起こすような高リスクな実験室環境では特に危険である。本研究では,LLM とビジョン言語モデル (VLM) を評価する総合的なフレームワークであるLab Safety Benchmark (LabSafety Bench) を提案する。
論文参考訳（メタデータ） (2024-10-18T05:21:05Z)
WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs [54.10865585773691]
LLM安全性のためのオープンで軽量なモデレーションツールであるWildGuardを紹介します。 WildGuardは、ユーザプロンプトにおける悪意のある意図の特定、モデルレスポンスの安全性リスクの検出、モデル拒絶率の決定という3つの目標を達成する。
論文参考訳（メタデータ） (2024-06-26T16:58:20Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
Uncertainty-Based Abstention in LLMs Improves Safety and Reduces Hallucinations [63.330182403615886]
大きな言語モデル(LLM)の実践的デプロイに対する大きな障壁は、信頼性の欠如である。このことが特に顕著な3つの状況は、正しさ、未解決の質問に対する幻覚、安全性である。人間のように、不確実性を理解する能力があるため、私たちが知らない質問への答えを控えるべきです。
論文参考訳（メタデータ） (2024-04-16T23:56:38Z)
SimpleSafetyTests: a Test Suite for Identifying Critical Safety Risks in Large Language Models [15.896567445646784]
このような重要な安全性リスクを迅速かつ体系的に識別するための新しいテストスイートとしてSimpleSafetyTests(SST)を紹介します。テストスイートは、5つのハーネス領域にわたる100のテストプロンプトで構成されており、LLMは、ほとんどのアプリケーションにおいて、コンプライアンスを拒否すべきである。いくつかのモデルは単一の安全でない応答を与えないが、ほとんどのモデルは20%以上のプロンプトに対して安全でない応答を与え、極端に50%以上の安全でない応答を与える。
論文参考訳（メタデータ） (2023-11-14T18:33:43Z)
ASSERT: Automated Safety Scenario Red Teaming for Evaluating the Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文参考訳（メタデータ） (2023-10-14T17:10:28Z)
Large Language Model-Powered Smart Contract Vulnerability Detection: New Perspectives [8.524720028421447]
本稿では, GPT-4 のような大規模言語モデル (LLM) を利用する機会, 課題, 潜在的な解決策を体系的に分析する。高いランダム性でより多くの答えを生成することは、正しい答えを生み出す可能性を大幅に押し上げるが、必然的に偽陽性の数が増加する。本稿では,GPTLens と呼ばれる,従来の一段階検出を2つの相乗的段階に分割し,生成と識別を行う逆方向のフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-02T12:37:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。