論文の概要: CivicShield: A Cross-Domain Defense-in-Depth Framework for Securing Government-Facing AI Chatbots Against Multi-Turn Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2603.29062v1
- Date: Mon, 30 Mar 2026 22:58:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.937384
- Title: CivicShield: A Cross-Domain Defense-in-Depth Framework for Securing Government-Facing AI Chatbots Against Multi-Turn Adversarial Attacks
- Title(参考訳): CivicShield: 政府主導のAIチャットボットを多段階の敵攻撃に対してセキュアにするためのクロスドメインディフェンス・イン・ディープス・フレームワーク
- Authors: KrishnaSaiReddy Patil,
- Abstract要約: CivicShieldは政府向けAIチャットボットのためのクロスドメイン・ディフェンス・イン・ディープス・フレームワークである。
そこで本研究では,NIST SP 800-53制御にフレームワークをマッピングし,アブレーション解析を用いて評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-based chatbots in government services face critical security gaps. Multi-turn adversarial attacks achieve over 90% success against current defenses, and single-layer guardrails are bypassed with similar rates. We present CivicShield, a cross-domain defense-in-depth framework for government-facing AI chatbots. Drawing on network security, formal verification, biological immune systems, aviation safety, and zero-trust cryptography, CivicShield introduces seven defense layers: (1) zero-trust foundation with capability-based access control, (2) perimeter input validation, (3) semantic firewall with intent classification, (4) conversation state machine with safety invariants, (5) behavioral anomaly detection, (6) multi-model consensus verification, and (7) graduated human-in-the-loop escalation. We present a formal threat model covering 8 multi-turn attack families, map the framework to NIST SP 800-53 controls across 14 families, and evaluate using ablation analysis. Theoretical analysis shows layered defenses reduce attack probability by 1-2 orders of magnitude versus single-layer approaches. Simulation against 1,436 scenarios including HarmBench (416), JailbreakBench (200), and XSTest (450) achieves 72.9% combined detection [69.5-76.0% CI] with 2.9% effective false positive rate after graduated response, while maintaining 100% detection of multi-turn crescendo and slow-drift attacks. The honest drop on real benchmarks versus author-generated scenarios (71.2% vs 76.7% on HarmBench, 47.0% vs 70.0% on JailbreakBench) validates independent evaluation importance. CivicShield addresses an open gap at the intersection of AI safety, government compliance, and practical deployment.
- Abstract(参考訳): 政府のサービスにおけるLLMベースのチャットボットは、重大なセキュリティギャップに直面している。
マルチターン攻撃は現在の防御に対して90%以上の成功を収め、単一層ガードレールも同様の速度で通過する。
我々は政府向けAIチャットボットのためのクロスドメイン・ディフェンス・イン・ディープス・フレームワークであるCivicShieldを紹介する。
ネットワークセキュリティ、フォーマルな検証、生物学的免疫システム、航空安全性、ゼロトラスト暗号に基づいて、CivicShieldは、(1)機能ベースのアクセス制御を備えたゼロトラスト基盤、(2)周辺入力検証、(3)意図分類を備えたセマンティックファイアウォール、(4)会話状態マシン、(5)行動異常検出、(6)マルチモデルコンセンサス検証、(7)人間のループエスカレーションという7つの防衛層を導入している。
本研究では,8つのマルチターン攻撃ファミリーを対象とし,14のファミリーにわたるNIST SP 800-53制御にフレームワークをマッピングし,アブレーション解析を用いて評価する。
理論的解析により、層状防御は単層アプローチに比べて1-2桁の攻撃確率を減少させる。
HarmBench (416)、JailbreakBench (200)、XSTest (450) を含む1,436のシナリオに対するシミュレーションでは、72.9%の同時検出(69.5-76.0% CI)と2.9%の効果的な偽陽性率を実現し、マルチターン・クレシデントとスロードリフト攻撃の100%検出を維持している。
実際のベンチマークと著者生成シナリオ(HarmBenchでは71.2%対76.7%、JailbreakBenchでは47.0%対70.0%)は、独立した評価の重要性を検証している。
CivicShieldは、AIの安全性、政府のコンプライアンス、実践的なデプロイメントの交差点におけるオープンギャップに対処する。
関連論文リスト
- How Vulnerable Are AI Agents to Indirect Prompt Injections? Insights from a Large-Scale Public Competition [48.32744727426218]
LLMベースのエージェントは、電子メール、ドキュメント、コードリポジトリなどの外部データソースを処理する高利得設定にますますデプロイされている。
これにより間接的なプロンプトインジェクション攻撃が発生し、外部コンテンツに埋め込まれた敵の命令は、ユーザの意識なしにエージェントの動作を操作できる。
この2つの目的を3つのエージェント設定で評価した。
論文 参考訳(メタデータ) (2026-03-16T14:49:36Z) - Don't Let the Claw Grip Your Hand: A Security Analysis and Defense Framework for OpenClaw [11.260903238043129]
大きな言語モデルを利用したコードエージェントは、ユーザに代わってシェルコマンドを実行し、深刻なセキュリティ脆弱性を導入することができる。
本稿では,OpenClawプラットフォームの2段階のセキュリティ解析について述べる。
我々は,新しいHuman-in-the-Loop(HITL)防衛層を提案し,実装する。
論文 参考訳(メタデータ) (2026-03-11T04:09:05Z) - $α^3$-SecBench: A Large-Scale Evaluation Suite of Security, Resilience, and Trust for LLM-based UAV Agents over 6G Networks [3.099103925863002]
LLMをベースとしたUAVエージェントのセキュリティ意識の自律性を評価するための,初の大規模評価スイートであるSecBenchを,現実的な対人干渉下で導入する。
我々は、175の脅威タイプにまたがる113,475のミッションのコーパスからサンプリングされた何千もの敵意的に強化されたUAVエピソードを使用して、大手産業プロバイダやAI研究所から23の最先端のLSMを評価した。正規化された総合スコアは12.9%から57.1%の範囲で、異常検出とセキュリティに配慮した自律的な意思決定の間に大きなギャップがあることを強調している。
論文 参考訳(メタデータ) (2026-01-26T18:25:07Z) - AI Security Beyond Core Domains: Resume Screening as a Case Study of Adversarial Vulnerabilities in Specialized LLM Applications [71.27518152526686]
大きな言語モデル(LLM)はテキストの理解と生成に優れており、コードレビューやコンテンツモデレーションといった自動タスクに最適である。
LLMは履歴書やコードなどの入力データに隠された「逆命令」で操作でき、意図したタスクから逸脱する。
本稿では,特定の攻撃タイプに対して80%以上の攻撃成功率を示すとともに,この脆弱性を再開スクリーニングで評価するためのベンチマークを提案する。
論文 参考訳(メタデータ) (2025-12-23T08:42:09Z) - Replicating TEMPEST at Scale: Multi-Turn Adversarial Attacks Against Trillion-Parameter Frontier Models [0.0]
本研究では、TEMPESTマルチターン攻撃フレームワークを用いて、1000の有害な振る舞いに対して8つのベンダーから10のフロンティアモデルを評価する。
6つのモデルが96%から100%の攻撃成功率(ASR)を達成し、4つのモデルが有意な抵抗を示し、ASRは42%から78%であった。
論文 参考訳(メタデータ) (2025-12-08T00:30:40Z) - Jailbreak Mimicry: Automated Discovery of Narrative-Based Jailbreaks for Large Language Models [0.0]
大規模言語モデル(LLM)は、高度な迅速なエンジニアリング攻撃に対して脆弱なままである。
我々は、物語ベースのジェイルブレイクプロンプトを自動生成するために、コンパクトアタッカーモデルを訓練するための体系的方法論であるジェイルブレイク・ミミミリを紹介する。
我々のアプローチは、敵の迅速な発見を手作業の職人技から再現可能な科学的プロセスに変換する。
論文 参考訳(メタデータ) (2025-10-24T23:53:16Z) - Cybersecurity AI: Evaluating Agentic Cybersecurity in Attack/Defense CTFs [3.6968315805917897]
我々は、サイバーセキュリティにおける攻撃や防御にAIシステムがより効果的であるかどうかを評価する。
統計分析によると、防御剤は54.3%の制約のないパッチング成功を達成している。
発見は、ディフェンダーがオープンソースのCybersecurity AIフレームワークを採用する緊急性を強調している。
論文 参考訳(メタデータ) (2025-10-20T13:21:09Z) - Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。
Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。
私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文 参考訳(メタデータ) (2025-07-28T05:13:04Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z) - Reliable evaluation of adversarial robustness with an ensemble of
diverse parameter-free attacks [65.20660287833537]
本稿では,最適段差の大きさと目的関数の問題による障害を克服するPGD攻撃の2つの拡張を提案する。
そして、我々の新しい攻撃と2つの補完的な既存の攻撃を組み合わせることで、パラメータフリーで、計算に手頃な価格で、ユーザに依存しない攻撃のアンサンブルを形成し、敵の堅牢性をテストする。
論文 参考訳(メタデータ) (2020-03-03T18:15:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。