論文の概要: Disentangling Adversarial Prompts: A Semantic-Graph Defense for Robust LLM Security
- arxiv url: http://arxiv.org/abs/2605.27823v1
- Date: Wed, 27 May 2026 01:30:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.670828
- Title: Disentangling Adversarial Prompts: A Semantic-Graph Defense for Robust LLM Security
- Title(参考訳): 敵対的プロンプト:ロバストLLMセキュリティのためのセマンティックグラフディフェンス
- Authors: Xiang Fang, Wanlong Fang,
- Abstract要約: Adrialversa Prompt Disentanglement (APD)フレームワークは、大規模言語モデルによって処理される前に、入力プロンプト内の悪意あるコンポーネントを特定し、中立化する。
APDは、モデル性能に対する無視的な影響を維持しながら、有害な出力生成を85%以上削減する。
我々の研究は、機械学習のセキュリティにおける新しい攻撃とMLシステムの整合性に関する重要な課題に対処する。
- 参考スコア(独自算出の注目度): 13.404415593709986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly vulnerable to adversarial prompts that exploit semantic ambiguities to bypass safety mechanisms, resulting in harmful or inappropriate outputs. Such attacks, including jailbreaking and prompt injection, pose significant risks to the integrity and availability of LLMs in security-critical applications. This paper proposes the Adversarial Prompt Disentanglement (APD) framework, a novel defense mechanism that proactively identifies and neutralizes malicious components in input prompts before they are processed by the LLM. The APD framework integrates three key innovations: (1) a mutual information-based semantic decomposition method to isolate adversarial and benign prompt components, ensuring statistical independence; (2) a graph-based intent classification approach that leverages spectral analysis to detect malicious patterns in prompt semantics; and (3) a lightweight transformer-based classifier trained on real-world datasets of toxic and jailbreaking prompts, enabling efficient and accurate adversarial intent detection. Evaluated on diverse datasets containing adversarial prompts, APD demonstrates superior robustness, reducing harmful output generation by over 85\% while maintaining negligible impact on model performance. The framework's computational efficiency supports real-time deployment, making it a practical solution for securing LLMs. Our work addresses critical challenges in machine learning security on novel attacks and integrity methods for ML systems, and offers a scalable, ethically grounded defense against prompt-based adversarial threats.
- Abstract(参考訳): 大規模言語モデル(LLM)は、安全メカニズムを回避し、有害または不適切な出力をもたらす意味的曖昧性を利用する敵のプロンプトに対して、ますます脆弱である。
ジェイルブレイクやプロンプトインジェクションを含むこのような攻撃は、セキュリティクリティカルなアプリケーションにおけるLLMの完全性と可用性に重大なリスクをもたらす。
本稿では,LLM が処理する前の入力プロンプトにおいて,悪意のあるコンポーネントを積極的に識別・中和する新しい防御機構である Adversarial Prompt Disentanglement (APD) フレームワークを提案する。
APDフレームワークは,(1)敵対的・良性的な素因的成分を分離し,統計的独立性を確保するための相互情報に基づく意味分解手法,(2)突発的意味論における悪意的パターンを検出するためのスペクトル分析を利用するグラフベースの意図分類手法,(3)有毒・脱獄的プロンプトの現実世界のデータセットに基づいて訓練された軽量なトランスフォーマーベースの分類器,の3つの重要なイノベーションを統合する。
逆方向のプロンプトを含む多様なデータセットを評価したところ、APDは優れた堅牢性を示し、モデル性能に対する無視可能な影響を維持しながら、有害な出力を85%以上削減した。
フレームワークの計算効率はリアルタイムなデプロイメントをサポートし、LLMをセキュアにするための実用的なソリューションとなっている。
我々の研究は、MLシステムの新たな攻撃に対する機械学習のセキュリティと整合性に関する重要な課題に対処し、迅速な敵の脅威に対して、スケーラブルで倫理的に根ざした防御を提供する。
関連論文リスト
- Prompt-Unknown Promotion Attacks against LLM-based Sequential Recommender Systems [51.504307822017985]
大規模言語モデルを用いたシーケンシャルレコメンデータシステム(LLM-SRS)は,最近顕著な性能を示した。
本稿では, LLM-SRSにおけるアイテムプロモーション攻撃について, 攻撃者に対してシステムプロンプトと被害者モデルの両方が未知な状況下で, より現実的な状況下で検討する。
論文 参考訳(メタデータ) (2026-04-26T10:09:26Z) - CIBER: A Comprehensive Benchmark for Security Evaluation of Code Interpreter Agents [27.35968236632966]
LLMベースのコードインタプリタエージェントは、ますます重要な状況にデプロイされている。
既存のベンチマークでは、動的コード実行、ツールインタラクション、マルチターンコンテキストから生じるセキュリティリスクをキャプチャできない。
動的アタック生成、分離されたセキュアサンドボックス、状態認識評価を組み合わせた自動ベンチマークであるCIBERを紹介する。
論文 参考訳(メタデータ) (2026-02-23T06:41:41Z) - Attributing and Exploiting Safety Vectors through Global Optimization in Large Language Models [50.91504059485288]
本報告では,全頭部のグローバルな最適化により,安全クリティカルな注意点を同時に識別するフレームワークを提案する。
我々は,アクティベーション・リマッチによって同定された安全ベクトルを利用する,新しい推論時ホワイトボックス・ジェイルブレイク法を開発した。
論文 参考訳(メタデータ) (2026-01-22T09:32:43Z) - Zero-Shot Embedding Drift Detection: A Lightweight Defense Against Prompt Injections in LLMs [2.2448294058653455]
敵は電子メールやユーザー生成コンテンツなどの間接的な入力チャネルを利用してアライメント保護を回避する。
本稿では,Zero-Shot Embedding Drift Detection (ZEDD)を提案する。
ZEDDは、モデル内部へのアクセス、アタックタイプの事前知識、タスク固有の再トレーニングを必要とせずに動作する。
論文 参考訳(メタデータ) (2026-01-18T11:33:35Z) - Countermind: A Multi-Layered Security Architecture for Large Language Models [0.0]
本稿では,多層型セキュリティアーキテクチャであるCountermindを提案する。
アーキテクチャは、すべての入力を構造的に検証し変換するように設計された強化された周辺装置と、出力が発生する前にモデルのセマンティック処理経路を制約する内部ガバナンス機構を提案する。
論文 参考訳(メタデータ) (2025-10-13T18:41:18Z) - Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Palisade -- Prompt Injection Detection Framework [0.9620910657090188]
大規模言語モデルは、悪意のあるインジェクション攻撃に対して脆弱である。
本稿では,新しいNLPを用いたインジェクション検出手法を提案する。
階層化された入力スクリーニングプロセスを通じて精度と最適化を強調する。
論文 参考訳(メタデータ) (2024-10-28T15:47:03Z) - PenHeal: A Two-Stage LLM Framework for Automated Pentesting and Optimal Remediation [18.432274815853116]
PenHealは2段階のLSMベースのフレームワークで、自律的に脆弱性を特定してセキュリティを確保する。
本稿では,LLMベースの2段階フレームワークであるPenHealについて紹介する。
論文 参考訳(メタデータ) (2024-07-25T05:42:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。