論文の概要: FORTRESS: Frontier Risk Evaluation for National Security and Public Safety
- arxiv url: http://arxiv.org/abs/2506.14922v2
- Date: Tue, 24 Jun 2025 19:55:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 12:28:29.33626
- Title: FORTRESS: Frontier Risk Evaluation for National Security and Public Safety
- Title(参考訳): FORTRESS:国家安全と公共安全のフロンティアリスク評価
- Authors: Christina Q. Knight, Kaustubh Deshpande, Ved Sirdeshmukh, Meher Mankikar, Scale Red Team, SEAL Research Team, Julian Michael,
- Abstract要約: 現在のベンチマークは、国家の安全と公共の安全リスクに対する安全の堅牢性をテストするのに失敗することが多い。
forTRESS:500人の専門家による敵のプロンプトと4-7のバイナリー質問のインスタンスベースのルーリックについて紹介する。
各プロンプト-ルブリックペアは、モデルオーバーリフレクションをテストするための対応する良性バージョンを持つ。
- 参考スコア(独自算出の注目度): 5.544163262906087
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid advancement of large language models (LLMs) introduces dual-use capabilities that could both threaten and bolster national security and public safety (NSPS). Models implement safeguards to protect against potential misuse relevant to NSPS and allow for benign users to receive helpful information. However, current benchmarks often fail to test safeguard robustness to potential NSPS risks in an objective, robust way. We introduce FORTRESS: 500 expert-crafted adversarial prompts with instance-based rubrics of 4-7 binary questions for automated evaluation across 3 domains (unclassified information only): Chemical, Biological, Radiological, Nuclear and Explosive (CBRNE), Political Violence & Terrorism, and Criminal & Financial Illicit Activities, with 10 total subcategories across these domains. Each prompt-rubric pair has a corresponding benign version to test for model over-refusals. This evaluation of frontier LLMs' safeguard robustness reveals varying trade-offs between potential risks and model usefulness: Claude-3.5-Sonnet demonstrates a low average risk score (ARS) (14.09 out of 100) but the highest over-refusal score (ORS) (21.8 out of 100), while Gemini 2.5 Pro shows low over-refusal (1.4) but a high average potential risk (66.29). Deepseek-R1 has the highest ARS at 78.05, but the lowest ORS at only 0.06. Models such as o1 display a more even trade-off between potential risks and over-refusals (with an ARS of 21.69 and ORS of 5.2). To provide policymakers and researchers with a clear understanding of models' potential risks, we publicly release FORTRESS at https://huggingface.co/datasets/ScaleAI/fortress_public. We also maintain a private set for evaluation.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、国家の安全と公共安全を脅かし、強化する可能性のあるデュアルユース機能を導入している。
モデルはNSPSに関連する潜在的な誤用から保護し、良質なユーザが有益な情報を受信できるようにするために、セーフガードを実装している。
しかしながら、現在のベンチマークは、客観的でロバストな方法でNSPSの潜在的なリスクに対するセーフガードの堅牢性をテストするのに失敗することが多い。
化学・生物・放射線・核・爆発(CBRNE)・政治暴力・テロリズム・犯罪・金融イリシット・アクティビティ(Criminal & Financial Illicit Activity)の3つの領域にまたがって,3つの領域にまたがる自動評価のための4~7つの質問をインスタンスベースで行う。
各プロンプト-ルブリックペアは、モデルオーバーリフレクションをテストするための対応する良性バージョンを持つ。
クロード3.5ソネットは、低い平均リスクスコア (ARS) (100点中14.09点) を示すが、最も高いオーバーリフレルスコア (ORS) (100点中21.8点) を示す一方、ジェミニ2.5プロは低いオーバーリフレル (1.4点) を示すが、高い平均リスクスコア (66.29点) を示す。
Deepseek-R1 は 78.05 で ARS が最も高いが、最も低い ORS は 0.06 である。
o1のようなモデルでは、潜在的なリスクと過剰な拒絶(ARSは21.69、ORSは5.2)の間のトレードオフがさらに大きい。
モデルの潜在的なリスクを明確に理解した政策立案者や研究者に、FORTESSをhttps://huggingface.co/datasets/ScaleAI/fortress_public.comで公開しています。
評価のためのプライベートセットも維持しています。
関連論文リスト
- Exploring the Secondary Risks of Large Language Models [17.845215420030467]
良心的衝動時の有害または誤解を招く行動に特徴付けられる二次的リスクを導入する。
敵の攻撃とは異なり、これらのリスクは不完全な一般化から生じ、しばしば標準的な安全メカニズムを回避する。
本研究では,ブラックボックス型多目的検索フレームワークSecLensを提案する。
論文 参考訳(メタデータ) (2025-06-14T07:31:52Z) - Adversarial Preference Learning for Robust LLM Alignment [24.217309343426297]
逆選択学習(英: Adversarial Preference Learning, APL)は、3つの重要な革新を取り入れた反復的逆選択学習法である。
第一に、モデル固有の嗜好確率に基づく直接的な有害度指標。
第二に、入力固有の逆数変化を合成する条件生成攻撃者。
論文 参考訳(メタデータ) (2025-05-30T09:02:07Z) - Towards Evaluating Proactive Risk Awareness of Multimodal Language Models [38.55193215852595]
プロアクティブな安全人工知能(AI)システムは、リアクティブシステムよりもうまく機能する。
PaSBenchは416のマルチモーダルシナリオを通じてこの機能を評価する。
Gemini-2.5-proのようなトップパフォーマーは、71%のイメージと64%のテキスト精度を達成したが、繰り返しトライアルで45-55%のリスクを逃した。
論文 参考訳(メタデータ) (2025-05-23T04:28:47Z) - Intolerable Risk Threshold Recommendations for Artificial Intelligence [0.2383122657918106]
フロンティアAIモデルは、公共の安全、人権、経済の安定、社会的価値に深刻なリスクをもたらす可能性がある。
リスクは、意図的に敵の誤用、システム障害、意図しないカスケード効果、複数のモデルにまたがる同時障害から生じる可能性がある。
16のグローバルAI産業組織がFrontier AI Safety Commitmentsに署名し、27の国とEUは、これらのしきい値を定義する意図を宣言した。
論文 参考訳(メタデータ) (2025-03-04T12:30:37Z) - The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1 [70.94607997570729]
本稿では,OpenAI-o3およびDeepSeek-R1推論モデルの総合的安全性評価を行う。
本研究では, 現実の応用における強靭性を評価するために, ジェイルブレイクやインジェクションなどの敵攻撃に対する感受性について検討する。
論文 参考訳(メタデータ) (2025-02-18T09:06:07Z) - VARS: Vision-based Assessment of Risk in Security Systems [1.433758865948252]
本研究では、さまざまな機械学習モデルとディープラーニングモデルの比較分析を行い、100ビデオのカスタムデータセットで危険度を予測する。
危険度は3つのカテゴリに分類される: 警告なし (7未満) と高い警告なし (7以上) である。
論文 参考訳(メタデータ) (2024-10-25T15:47:13Z) - C-RAG: Certified Generation Risks for Retrieval-Augmented Language Models [57.10361282229501]
RAGモデルの生成リスクを認証する最初のフレームワークであるC-RAGを提案する。
具体的には、RAGモデルに対して共形リスク分析を行い、生成リスクの上限以上の信頼度を認定する。
検索モデルと変圧器の品質が非自明な場合, RAG は単一の LLM よりも低い共形生成リスクを達成できることを示す。
論文 参考訳(メタデータ) (2024-02-05T16:46:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。