論文の概要: Can AI Keep a Secret? Contextual Integrity Verification: A Provable Security Architecture for LLMs
- arxiv url: http://arxiv.org/abs/2508.09288v2
- Date: Mon, 18 Aug 2025 18:20:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 13:30:22.869897
- Title: Can AI Keep a Secret? Contextual Integrity Verification: A Provable Security Architecture for LLMs
- Title(参考訳): AIは秘密を守ることができるか? コンテキスト統合検証: LLMの予測可能なセキュリティアーキテクチャ
- Authors: Aayush Gupta,
- Abstract要約: 我々は、暗号的に署名されたラベルを全てのトークンにアタッチする、既定のセキュリティアーキテクチャであるContextual Integrity Verification (CIV)を提示する。
CIVは、凍結したモデルに対して、前兆かつトーケン毎の非干渉保証を提供する。
Llama-3-8BとMistral-7Bのドロップイン保護を実証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) remain acutely vulnerable to prompt injection and related jailbreak attacks; heuristic guardrails (rules, filters, LLM judges) are routinely bypassed. We present Contextual Integrity Verification (CIV), an inference-time security architecture that attaches cryptographically signed provenance labels to every token and enforces a source-trust lattice inside the transformer via a pre-softmax hard attention mask (with optional FFN/residual gating). CIV provides deterministic, per-token non-interference guarantees on frozen models: lower-trust tokens cannot influence higher-trust representations. On benchmarks derived from recent taxonomies of prompt-injection vectors (Elite-Attack + SoK-246), CIV attains 0% attack success rate under the stated threat model while preserving 93.1% token-level similarity and showing no degradation in model perplexity on benign tasks; we note a latency overhead attributable to a non-optimized data path. Because CIV is a lightweight patch -- no fine-tuning required -- we demonstrate drop-in protection for Llama-3-8B and Mistral-7B. We release a reference implementation, an automated certification harness, and the Elite-Attack corpus to support reproducible research.
- Abstract(参考訳): 大規模言語モデル(LLM)は、迅速な注入と関連するジェイルブレイク攻撃に対して深刻な脆弱性を保ち、ヒューリスティックガードレール(ルール、フィルタ、LLM審査員)は日常的にバイパスされる。
CIV(Contextual Integrity Verification)は、暗号的に署名された証明ラベルを各トークンにアタッチし、ソフトマックス前のハードアテンションマスク(オプションFFN/残留ゲーティング)を介してトランスフォーマー内のソーストラスト格子を強制する推論時セキュリティアーキテクチャである。
CIVは、凍結モデルに対して決定論的かつトーケン毎の非干渉保証を提供する: 低いトラストトークンはより高いトラスト表現に影響を与えることができない。
最近のインジェクションベクトルの分類から得られたベンチマーク(Elite-Attack + SoK-246)では、CIVは93.1%のトークンレベルの類似性を保ちながら攻撃成功率0%に達し、良性タスクにおけるモデルパープレキシティの劣化を示さない。
CIVは軽量なパッチ(微調整不要)であるため、Llama-3-8BとMistral-7Bのドロップイン保護を実証する。
我々は、再現可能な研究を支援するためのリファレンス実装、自動認証ハーネス、Elite-Attackコーパスをリリースする。
関連論文リスト
- Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。
近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。
脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - One Trigger Token Is Enough: A Defense Strategy for Balancing Safety and Usability in Large Language Models [20.42976162135529]
大規模言語モデル(LLM)は、仮想アシスタント、自動コード生成、科学研究など、さまざまな領域で広く使われている。
我々は,与えられた安全対応LLMの安全トリガトークンを識別し,明示的に復号する,シンプルで効果的な防衛アルゴリズムであるtextttD-STT を提案する。
論文 参考訳(メタデータ) (2025-05-12T01:26:50Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - Towards Universal and Black-Box Query-Response Only Attack on LLMs with QROA [2.4578723416255754]
悪意ある命令に付加された相手の接尾辞を識別するブラックボックスジェイルブレイク手法であるQROAを紹介する。
既存のサフィックスベースのjailbreakアプローチとは異なり、QROAはモデルのロジットや他の内部情報へのアクセスを必要としない。
また,QROA-UNVは,個々のモデルに対する普遍的対角接尾辞を識別する拡張である。
論文 参考訳(メタデータ) (2024-06-04T07:27:36Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z) - Certifying LLM Safety against Adversarial Prompting [70.96868018621167]
大規模言語モデル(LLM)は、入力プロンプトに悪意のあるトークンを追加する敵攻撃に対して脆弱である。
我々は,認証された安全保証とともに,敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
論文 参考訳(メタデータ) (2023-09-06T04:37:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。