論文の概要: AVISE: Framework for Evaluating the Security of AI Systems
- arxiv url: http://arxiv.org/abs/2604.20833v1
- Date: Wed, 22 Apr 2026 17:58:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.274073
- Title: AVISE: Framework for Evaluating the Security of AI Systems
- Title(参考訳): AVISE:AIシステムのセキュリティを評価するフレームワーク
- Authors: Mikko Lempinen, Joni Kemppainen, Niklas Raesalmi,
- Abstract要約: 我々は、AIシステムやモデルのセキュリティの脆弱性を特定し評価するためのオープンソースのモジュラーフレームワークを紹介します。
我々は、言語モデルにおけるジェイルブレイク脆弱性を発見するための自動セキュリティ評価テスト(SET)を開発した。
我々は、最近リリースされた9つの言語モデルについて、SETを用いて評価し、これらすべてが、Red Queen攻撃に対して様々な程度に脆弱であることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As artificial intelligence (AI) systems are increasingly deployed across critical domains, their security vulnerabilities pose growing risks of high-profile exploits and consequential system failures. Yet systematic approaches to evaluating AI security remain underdeveloped. In this paper, we introduce AVISE (AI Vulnerability Identification and Security Evaluation), a modular open-source framework for identifying vulnerabilities in and evaluating the security of AI systems and models. As a demonstration of the framework, we extend the theory-of-mind-based multi-turn Red Queen attack into an Adversarial Language Model (ALM) augmented attack and develop an automated Security Evaluation Test (SET) for discovering jailbreak vulnerabilities in language models. The SET comprises 25 test cases and an Evaluation Language Model (ELM) that determines whether each test case was able to jailbreak the target model, achieving 92% accuracy, an F1-score of 0.91, and a Matthews correlation coefficient of 0.83. We evaluate nine recently released language models of diverse sizes with the SET and find that all are vulnerable to the augmented Red Queen attack to varying degrees. AVISE provides researchers and industry practitioners with an extensible foundation for developing and deploying automated SETs, offering a concrete step toward more rigorous and reproducible AI security evaluation.
- Abstract(参考訳): 人工知能(AI)システムが重要なドメインにまたがってますますデプロイされるにつれて、そのセキュリティ脆弱性は、目立ったエクスプロイトとその後のシステム障害のリスクを増大させる。
しかし、AIセキュリティを評価するための体系的なアプローチは未開発のままである。
本稿では,AIシステムやモデルのセキュリティの脆弱性を特定し評価するモジュール型オープンソースフレームワークであるAVISE(AI Vulnerability Identification and Security Evaluation)を紹介する。
このフレームワークの実証として、我々は、マルチターンレッドクイーン攻撃の理論をALM(Adversarial Language Model)拡張攻撃に拡張し、言語モデルにおけるジェイルブレイク脆弱性を発見するための自動セキュリティ評価テスト(SET)を開発する。
SETは、25のテストケースと、各テストケースがターゲットモデルをジェイルブレイクできるかどうかを判定し、92%の精度、F1スコアが0.91、マシューズ相関係数が0.83である評価言語モデル(ELM)から構成される。
我々は、最近リリースされた9つの言語モデルについて、SETを用いて評価し、これらすべてが、Red Queen攻撃に対して様々な程度に脆弱であることが判明した。
AVISEは、研究者や業界の実践者に、自動化されたSETの開発とデプロイのための拡張可能な基盤を提供し、より厳格で再現可能なAIセキュリティ評価に向けた具体的なステップを提供する。
関連論文リスト
- SecureCAI: Injection-Resilient LLM Assistants for Cybersecurity Operations [0.0]
本稿では,SecureCAIについて紹介する。SecureCAIは,セキュリティに配慮したガードレールによって,憲法上のAI原則を拡張した新しい防御フレームワークである。
SecureCAIはベースラインモデルと比較して攻撃成功率を94.7%削減する。
論文 参考訳(メタデータ) (2026-01-12T18:59:45Z) - Automated Red-Teaming Framework for Large Language Model Security Assessment: A Comprehensive Attack Generation and Detection System [4.864011355064205]
本稿では,大規模言語モデル(LLM)におけるセキュリティ脆弱性を明らかにするための,敵のプロンプトを生成し,実行し,評価する自動リピートフレームワークを提案する。
本フレームワークは,メタプロンプトに基づく攻撃合成,マルチモーダル脆弱性検出,および6つの主要な脅威カテゴリにまたがる標準化された評価プロトコルを統合する。
GPT-OSS-20Bモデルの実験では、21の重大度と12の新たな攻撃パターンを含む47の異なる脆弱性が明らかになった。
論文 参考訳(メタデータ) (2025-12-21T19:12:44Z) - Toward Quantitative Modeling of Cybersecurity Risks Due to AI Misuse [50.87630846876635]
我々は9つの詳細なサイバーリスクモデルを開発する。
各モデルはMITRE ATT&CKフレームワークを使用して攻撃をステップに分解する。
個々の見積もりはモンテカルロシミュレーションによって集約される。
論文 参考訳(メタデータ) (2025-12-09T17:54:17Z) - Cybersecurity AI Benchmark (CAIBench): A Meta-Benchmark for Evaluating Cybersecurity AI Agents [0.36134114973155557]
既存のベンチマークは、統合されたパフォーマンスではなく、独立したスキルを評価する。
モジュール型メタベンチマークフレームワークであるCAIBench(Cybersecurity AI Benchmark)を紹介する。
適切なマッチは2.6$times$ variance in Attack and Defense CTFsまで改善される。
論文 参考訳(メタデータ) (2025-10-28T11:36:20Z) - Jailbreak Mimicry: Automated Discovery of Narrative-Based Jailbreaks for Large Language Models [0.0]
大規模言語モデル(LLM)は、高度な迅速なエンジニアリング攻撃に対して脆弱なままである。
我々は、物語ベースのジェイルブレイクプロンプトを自動生成するために、コンパクトアタッカーモデルを訓練するための体系的方法論であるジェイルブレイク・ミミミリを紹介する。
我々のアプローチは、敵の迅速な発見を手作業の職人技から再現可能な科学的プロセスに変換する。
論文 参考訳(メタデータ) (2025-10-24T23:53:16Z) - Bridging AI and Software Security: A Comparative Vulnerability Assessment of LLM Agent Deployment Paradigms [1.03121181235382]
大規模言語モデル(LLM)エージェントは、AI固有の旧来のソフトウェアドメインにまたがるセキュリティ上の脆弱性に直面している。
本研究では,Function Calling アーキテクチャと Model Context Protocol (MCP) デプロイメントパラダイムの比較評価を通じて,このギャップを埋める。
私たちは7つの言語モデルにわたる3,250の攻撃シナリオをテストし、AI固有の脅威とソフトウェア脆弱性の両方を対象として、シンプルで、構成され、連鎖した攻撃を評価しました。
論文 参考訳(メタデータ) (2025-07-08T18:24:28Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。