論文の概要: SecureCAI: Injection-Resilient LLM Assistants for Cybersecurity Operations
- arxiv url: http://arxiv.org/abs/2601.07835v1
- Date: Mon, 12 Jan 2026 18:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.840311
- Title: SecureCAI: Injection-Resilient LLM Assistants for Cybersecurity Operations
- Title(参考訳): SecureCAI: サイバーセキュリティ運用のためのインジェクションレジリエントLLMアシスタント
- Authors: Mohammed Himayath Ali, Mohammed Aqib Abdullah, Mohammed Mudassir Uddin, Shahnawaz Alam,
- Abstract要約: 本稿では,SecureCAIについて紹介する。SecureCAIは,セキュリティに配慮したガードレールによって,憲法上のAI原則を拡張した新しい防御フレームワークである。
SecureCAIはベースラインモデルと比較して攻撃成功率を94.7%削減する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models have emerged as transformative tools for Security Operations Centers, enabling automated log analysis, phishing triage, and malware explanation; however, deployment in adversarial cybersecurity environments exposes critical vulnerabilities to prompt injection attacks where malicious instructions embedded in security artifacts manipulate model behavior. This paper introduces SecureCAI, a novel defense framework extending Constitutional AI principles with security-aware guardrails, adaptive constitution evolution, and Direct Preference Optimization for unlearning unsafe response patterns, addressing the unique challenges of high-stakes security contexts where traditional safety mechanisms prove insufficient against sophisticated adversarial manipulation. Experimental evaluation demonstrates that SecureCAI reduces attack success rates by 94.7% compared to baseline models while maintaining 95.1% accuracy on benign security analysis tasks, with the framework incorporating continuous red-teaming feedback loops enabling dynamic adaptation to emerging attack strategies and achieving constitution adherence scores exceeding 0.92 under sustained adversarial pressure, thereby establishing a foundation for trustworthy integration of language model capabilities into operational cybersecurity workflows and addressing a critical gap in current approaches to AI safety within adversarial domains.
- Abstract(参考訳): 大規模言語モデルは、セキュリティ運用センターのトランスフォーメーションツールとして登場し、自動ログ分析、フィッシングトリアージ、マルウェアの説明を可能にしている。
本稿では,セキュリティに配慮したガードレール,適応型コンスティチューション進化,非学習型アンセーフ応答パターンに対するダイレクト・プレフレクションの最適化といった,従来の安全メカニズムが高度な敵の操作に対して不十分であるような,高度なセキュリティコンテキストにおけるユニークな課題に対処する,新たな防衛フレームワークであるSecureCAIを紹介する。
実験的な評価によると、SecureCAIは攻撃成功率をベースラインモデルと比較して94.7%削減し、95.1%の精度を維持しつつ、新しい攻撃戦略への動的適応を可能にし、コンフィグレーションのコンフィグエンススコアを0.92以上達成する継続的リピートフィードバックループを組み込んだ。
関連論文リスト
- A Call to Action for a Secure-by-Design Generative AI Paradigm [0.0]
大規模言語モデル(LLM)は、インジェクションや他の敵攻撃に対して脆弱である。
本稿では,決定論的かつセキュアな対話を実現するフレームワークであるPromptShieldを紹介する。
その結果,モデルの安全性と性能が向上し,精度,リコール,F1スコアが約94%向上した。
論文 参考訳(メタデータ) (2025-10-01T03:05:07Z) - SafeEvalAgent: Toward Agentic and Self-Evolving Safety Evaluation of LLMs [37.82193156438782]
本稿では, エージェント安全評価の新しいパラダイムとして, 継続的かつ自己進化的なプロセスとしてのリフレーミング評価を提案する。
本稿では、構造化されていないポリシー文書を自律的に取り込み、包括的な安全ベンチマークを生成し、永続的に進化させる、新しいマルチエージェントフレームワークSafeEvalAgentを提案する。
本実験はSafeEvalAgentの有効性を実証し,評価が強まるにつれてモデルの安全性が一貫した低下を示す。
論文 参考訳(メタデータ) (2025-09-30T11:20:41Z) - Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - Thought Purity: A Defense Framework For Chain-of-Thought Attack [16.56580534764132]
本稿では,悪意のあるコンテンツに対する抵抗性を高めつつ,操作効率を保ちつつ,その耐性を高めるフレームワークであるThought Purityを提案する。
本手法は,強化学習型推論システムにおけるCoTA脆弱性に対する最初の包括的防御機構を確立する。
論文 参考訳(メタデータ) (2025-07-16T15:09:13Z) - PRM-Free Security Alignment of Large Models via Red Teaming and Adversarial Training [0.5439020425819]
大規模言語モデル(LLM)は、多様なアプリケーションにまたがる顕著な機能を示しているが、重要なドメインへの安全なデプロイを脅かす重大なセキュリティリスクを伴っている。
本稿では,計算効率を維持しつつ,堅牢なセキュリティ保証を実現するために,自動化されたレッドチームと敵のトレーニングを活用する新しいPRMフリーセキュリティアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-14T17:41:12Z) - Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。
本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文 参考訳(メタデータ) (2025-03-14T17:39:45Z) - CyberLLMInstruct: A Pseudo-malicious Dataset Revealing Safety-performance Trade-offs in Cyber Security LLM Fine-tuning [2.549390156222399]
大規模言語モデルのサイバーセキュリティアプリケーションへの統合は、機会と重要な安全リスクの両方を示します。
我々はサイバーセキュリティタスクにまたがる54,928の擬似重複命令応答ペアのデータセットであるCyberLLMInstructを紹介した。
論文 参考訳(メタデータ) (2025-03-12T12:29:27Z) - AISafetyLab: A Comprehensive Framework for AI Safety Evaluation and Improvement [73.0700818105842]
我々は、AI安全のための代表的攻撃、防衛、評価方法論を統合する統合されたフレームワークとツールキットであるAISafetyLabを紹介する。
AISafetyLabには直感的なインターフェースがあり、開発者はシームレスにさまざまなテクニックを適用できる。
我々はヴィクナに関する実証的研究を行い、異なる攻撃戦略と防衛戦略を分析し、それらの比較効果に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2025-02-24T02:11:52Z) - Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [54.10710423370126]
本稿では,大規模言語モデルの生成プロセスに安全性を考慮した推論機構を統合する訓練パラダイムであるReasoning-to-Defend(R2D)を提案する。
CPOは、与えられた対話の安全性に対するモデルの認識を高める。
実験によると、R2Dは様々な攻撃を効果的に軽減し、元の性能を維持しながら全体の安全性を向上させる。
論文 参考訳(メタデータ) (2025-02-18T15:48:46Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。