論文の概要: Countermind: A Multi-Layered Security Architecture for Large Language Models
- arxiv url: http://arxiv.org/abs/2510.11837v1
- Date: Mon, 13 Oct 2025 18:41:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.064809
- Title: Countermind: A Multi-Layered Security Architecture for Large Language Models
- Title(参考訳): Countermind: 大規模言語モデルのための多層セキュリティアーキテクチャ
- Authors: Dominik Schwarz,
- Abstract要約: 本稿では,多層型セキュリティアーキテクチャであるCountermindを提案する。
アーキテクチャは、すべての入力を構造的に検証し変換するように設計された強化された周辺装置と、出力が発生する前にモデルのセマンティック処理経路を制約する内部ガバナンス機構を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The security of Large Language Model (LLM) applications is fundamentally challenged by "form-first" attacks like prompt injection and jailbreaking, where malicious instructions are embedded within user inputs. Conventional defenses, which rely on post hoc output filtering, are often brittle and fail to address the root cause: the model's inability to distinguish trusted instructions from untrusted data. This paper proposes Countermind, a multi-layered security architecture intended to shift defenses from a reactive, post hoc posture to a proactive, pre-inference, and intra-inference enforcement model. The architecture proposes a fortified perimeter designed to structurally validate and transform all inputs, and an internal governance mechanism intended to constrain the model's semantic processing pathways before an output is generated. The primary contributions of this work are conceptual designs for: (1) A Semantic Boundary Logic (SBL) with a mandatory, time-coupled Text Crypter intended to reduce the plaintext prompt injection attack surface, provided all ingestion paths are enforced. (2) A Parameter-Space Restriction (PSR) mechanism, leveraging principles from representation engineering, to dynamically control the LLM's access to internal semantic clusters, with the goal of mitigating semantic drift and dangerous emergent behaviors. (3) A Secure, Self-Regulating Core that uses an OODA loop and a learning security module to adapt its defenses based on an immutable audit log. (4) A Multimodal Input Sandbox and Context-Defense mechanisms to address threats from non-textual data and long-term semantic poisoning. This paper outlines an evaluation plan designed to quantify the proposed architecture's effectiveness in reducing the Attack Success Rate (ASR) for form-first attacks and to measure its potential latency overhead.
- Abstract(参考訳): 大規模言語モデル(LLM)アプリケーションのセキュリティは、ユーザ入力に悪意のある命令が埋め込まれているプロンプトインジェクションやジェイルブレイクのような"フォームファースト"攻撃によって、基本的には問題となる。
ポストホック出力フィルタリングに依存する従来の防御は、しばしば脆く、根本原因に対処できない:信頼できないデータと信頼できない命令を区別できない。
本稿では,多層型セキュリティアーキテクチャであるCountermindを提案する。
アーキテクチャは、すべての入力を構造的に検証し変換するように設計された強化された周辺装置と、出力が発生する前にモデルのセマンティック処理経路を制約する内部ガバナンス機構を提案する。
1) 摂動境界論理(SBL)と必須の時間結合されたテキストクリプタは、すべての摂取経路が強制される場合、平文のプロンプトインジェクション攻撃面を減らすことを目的としている。
2) 表現工学の原理を活かしたパラメータ空間制限(PSR)機構により, LLMの内部意味クラスタへのアクセスを動的に制御し, セマンティックドリフトと危険な創発的行動の緩和を図る。
(3) OODAループと学習セキュリティモジュールを使用して、不変監査ログに基づいて防御を適応するセキュアで自己規制型のコア。
(4)非テクストデータと長期セマンティック中毒からの脅威に対処するためのマルチモーダル入力サンドボックスとコンテキストデフエンス機構。
本稿では,フォームファースト攻撃における攻撃成功率(ASR)を低減し,潜在的遅延オーバヘッドを測定する上で,提案するアーキテクチャの有効性を定量的に評価する計画について概説する。
関連論文リスト
- SecInfer: Preventing Prompt Injection via Inference-time Scaling [54.21558811232143]
emphSecInferは,インセンジェンス時間スケーリングに基づくインジェクション攻撃に対する新しい防御法である。
SecInferは、既存のインジェクション攻撃と適応的なインジェクション攻撃の両方を効果的に軽減し、最先端の防御と既存の推論時間スケーリングアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2025-09-29T16:00:41Z) - Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs [39.85609149662187]
DLLMのユニークな安全性の弱点を生かした、最初の系統的な研究および脱獄攻撃フレームワークであるDIJAを提案する。
提案するDIJAは,dLLMのテキスト生成機構を利用した対向的インターリーブ・マスクテキストプロンプトを構築する。
本研究は, 新たな言語モデルにおいて, 安全アライメントの再考の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-07-15T08:44:46Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [49.47193675702453]
大規模言語モデル(LLM)は、顕著な生成能力を示している。
LLMは、安全上の制約を回避できる悪意のある命令に弱いままである。
推論に基づく安全アライメントフレームワークARMORを提案する。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Output Constraints as Attack Surface: Exploiting Structured Generation to Bypass LLM Safety Mechanisms [0.9091225937132784]
我々は、従来のデータプレーンの脆弱性に対して、重要な制御プレーン攻撃面を明らかにする。
本稿では、構造的出力制約を武器として安全機構をバイパスする新しいジェイルブレイククラスであるConstrained Decoding Attackを紹介する。
本研究は, 現状のLLMアーキテクチャにおける重要なセキュリティ盲点を明らかにし, 制御面脆弱性に対処するため, LLM安全性のパラダイムシフトを促すものである。
論文 参考訳(メタデータ) (2025-03-31T15:08:06Z) - TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation [31.231916859341865]
TrustRAGは、生成のために取得される前に、悪意のある、無関係なコンテンツを体系的にフィルタリングするフレームワークである。
TrustRAGは、検索精度、効率、攻撃抵抗を大幅に改善する。
論文 参考訳(メタデータ) (2025-01-01T15:57:34Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。