論文の概要: A Self-Improving Architecture for Dynamic Safety in Large Language Models
- arxiv url: http://arxiv.org/abs/2511.07645v1
- Date: Wed, 12 Nov 2025 01:09:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.409859
- Title: A Self-Improving Architecture for Dynamic Safety in Large Language Models
- Title(参考訳): 大規模言語モデルにおける動的安全のための自己改善型アーキテクチャ
- Authors: Tyler Slater,
- Abstract要約: LLM(Large Language Models)のコアソフトウェアシステムへの統合が加速している。
既存のソフトウェアアーキテクチャパターンは静的だが、現在の安全性保証方法はスケーラブルではない。
動的フィードバックループと非保護で非整合なベースLLMを結合するランタイムアーキテクチャを提案する。
このループは、違反検出のためのAI Adjudicator (GPT-4o) と、新しい一般化された安全ポリシーを自律的に生成するポリシー合成モジュール (GPT-4 Turbo) で構成されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context: The integration of Large Language Models (LLMs) into core software systems is accelerating. However, existing software architecture patterns are static, while current safety assurance methods are not scalable, leaving systems vulnerable to novel adversarial threats. Objective: To design, implement, and evaluate a novel software architecture that enables an AI-driven system to autonomously and continuously adapt its own safety protocols at runtime. Method: We propose the Self-Improving Safety Framework (SISF), a runtime architecture that couples an unprotected, unaligned base LLM (mistralai/Mistral-7B-v0.1) with a dynamic feedback loop. This loop consists of an AI Adjudicator (GPT-4o) for breach detection and a Policy Synthesis Module (GPT-4 Turbo) that autonomously generates new, generalized safety policies (both heuristic and semantic) in response to failures. Results: We conducted a dynamic learning evaluation using the 520-prompt AdvBench dataset. The unprotected model was 100% vulnerable. Our SISF, starting from zero policies, demonstrated a clear learning curve: it detected 237 breaches, autonomously synthesized 234 new policies, and reduced the overall Attack Success Rate (ASR) to 45.58%. In a subsequent test on 520 benign prompts, the SISF achieved a 0.00% False Positive Rate (FPR), proving its ability to adapt without compromising user utility. Conclusion: An architectural approach to AI safety, based on the principles of self-adaptation, is a viable and effective strategy. Our framework demonstrates a practical path towards building more robust, resilient, and scalable AI-driven systems, shifting safety assurance from a static, pre-deployment activity to an automated, runtime process.
- Abstract(参考訳): コンテキスト: コアソフトウェアシステムへのLLM(Large Language Models)の統合が加速しています。
しかし、既存のソフトウェアアーキテクチャパターンは静的であり、現在の安全性保証手法は拡張性がなく、システムは新たな敵の脅威に弱いままである。
目的: AI駆動システムにおいて,実行時に自身の安全プロトコルを自律的かつ継続的に適用可能な,新たなソフトウェアアーキテクチャの設計,実装,評価を行う。
方法: 自己改善安全フレームワーク(SISF, Self-Improving Safety Framework)は, 動的フィードバックループと非保護・非整合ベースLLM(mistralai/Mistral-7B-v0.1)を結合するランタイムアーキテクチャである。
このループは、違反検出のためのAI Adjudicator (GPT-4o) と、障害に対応するために新しく一般化された安全ポリシー(ヒューリスティックとセマンティックの両方)を自律的に生成するポリシー合成モジュール (GPT-4 Turbo) で構成されている。
結果: 520-promptのAdvBenchデータセットを用いて動的学習評価を行った。
保護されていないモデルは100%脆弱であった。
SISFは、ゼロポリシーから始まり、237件の違反を検出し、234件の新しいポリシーを自律的に合成し、全体的なアタック成功率(ASR)を45.58%に下げた。
その後の520回の試験では、SISFは偽陽性率(FPR)を0.00%達成し、ユーザの有用性を損なうことなく適応する能力を示した。
結論: AIの安全性に対するアーキテクチャ的アプローチは、自己適応の原則に基づいて、実行可能で効果的な戦略です。
我々のフレームワークは、より堅牢でレジリエントでスケーラブルなAI駆動システムを構築するための実践的な道を示し、安全保証を静的でデプロイ前のアクティビティから自動化されたランタイムプロセスに移行する。
関連論文リスト
- A Call to Action for a Secure-by-Design Generative AI Paradigm [0.0]
大規模言語モデル(LLM)は、インジェクションや他の敵攻撃に対して脆弱である。
本稿では,決定論的かつセキュアな対話を実現するフレームワークであるPromptShieldを紹介する。
その結果,モデルの安全性と性能が向上し,精度,リコール,F1スコアが約94%向上した。
論文 参考訳(メタデータ) (2025-10-01T03:05:07Z) - SafeEvalAgent: Toward Agentic and Self-Evolving Safety Evaluation of LLMs [37.82193156438782]
本稿では, エージェント安全評価の新しいパラダイムとして, 継続的かつ自己進化的なプロセスとしてのリフレーミング評価を提案する。
本稿では、構造化されていないポリシー文書を自律的に取り込み、包括的な安全ベンチマークを生成し、永続的に進化させる、新しいマルチエージェントフレームワークSafeEvalAgentを提案する。
本実験はSafeEvalAgentの有効性を実証し,評価が強まるにつれてモデルの安全性が一貫した低下を示す。
論文 参考訳(メタデータ) (2025-09-30T11:20:41Z) - Adaptive Cybersecurity Architecture for Digital Product Ecosystems Using Agentic AI [0.0]
本研究では,動的学習と文脈認識型意思決定が可能な自律目標駆動エージェントを提案する。
行動ベースライン、分散リスクスコア、フェデレーションされた脅威情報共有は重要な特徴である。
このアーキテクチャは、複雑なデジタルインフラストラクチャを保護するインテリジェントでスケーラブルな青写真を提供する。
論文 参考訳(メタデータ) (2025-09-25T00:43:53Z) - ANNIE: Be Careful of Your Robots [48.89876809734855]
エンボディドAIシステムに対する敵の安全攻撃に関する最初の体系的研究について述べる。
すべての安全カテゴリーで攻撃の成功率は50%を超えている。
結果は、実証済みのAIシステムにおいて、これまで未調査だったが、非常に連続的な攻撃面を露呈する。
論文 参考訳(メタデータ) (2025-09-03T15:00:28Z) - Enhancing Reliability in LLM-Integrated Robotic Systems: A Unified Approach to Security and Safety [6.3301898351857515]
大きな言語モデルをロボットシステムに統合することは、人工知能に革命をもたらした。
本稿では,運用安全を図りつつ,迅速なインジェクション攻撃を緩和する統合フレームワークを提案する。
当社のアプローチは,パフォーマンス指標とセキュリティ指標の両方を用いて評価された,迅速な組み立て,状態管理,安全性検証を組み合わせたものだ。
論文 参考訳(メタデータ) (2025-09-02T10:14:28Z) - SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T10:56:06Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。