論文の概要: Stronger Enforcement of Instruction Hierarchy via Augmented Intermediate Representations
- arxiv url: http://arxiv.org/abs/2505.18907v1
- Date: Sun, 25 May 2025 00:01:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.743015
- Title: Stronger Enforcement of Instruction Hierarchy via Augmented Intermediate Representations
- Title(参考訳): 中間表現の強化による指導階層の強化
- Authors: Sanjay Kariyappa, G. Edward Suh,
- Abstract要約: ネットワーク内の中間トークン表現にIH信号を注入する新しい手法を提案する。
本手法は、これらの表現を、特権情報をエンコードする層固有のトレーニング可能な埋め込みで拡張する。
複数のモデルとトレーニング手法で評価した結果、提案手法は攻撃成功率の1.6倍から9.2倍の9.2倍に低下することがわかった。
- 参考スコア(独自算出の注目度): 10.746349111023964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt injection attacks are a critical security vulnerability in large language models (LLMs), allowing attackers to hijack model behavior by injecting malicious instructions within the input context. Recent defense mechanisms have leveraged an Instruction Hierarchy (IH) Signal, often implemented through special delimiter tokens or additive embeddings to denote the privilege level of input tokens. However, these prior works typically inject the IH signal exclusively at the initial input layer, which we hypothesize limits its ability to effectively distinguish the privilege levels of tokens as it propagates through the different layers of the model. To overcome this limitation, we introduce a novel approach that injects the IH signal into the intermediate token representations within the network. Our method augments these representations with layer-specific trainable embeddings that encode the privilege information. Our evaluations across multiple models and training methods reveal that our proposal yields between $1.6\times$ and $9.2\times$ reduction in attack success rate on gradient-based prompt injection attacks compared to state-of-the-art methods, without significantly degrading the model's utility.
- Abstract(参考訳): プロンプトインジェクション攻撃は、大きな言語モデル(LLM)において重要なセキュリティ脆弱性であり、攻撃者は入力コンテキスト内に悪意のある命令を注入することで、モデル動作をハイジャックすることができる。
最近の防衛機構は命令階層(IH)信号を利用しており、しばしば特別なデリミタトークンや付加的な埋め込みを通じて実装され、入力トークンの特権レベルを示している。
しかしながら、これらの先行研究は通常、初期入力層にのみIH信号を注入し、モデルの異なる層を伝播する際にトークンの特権レベルを効果的に区別する能力を制限することを仮定する。
この制限を克服するために、ネットワーク内の中間トークン表現にIH信号を注入する新しいアプローチを導入する。
本手法は、これらの表現を、特権情報をエンコードする層固有のトレーニング可能な埋め込みで拡張する。
複数のモデルとトレーニング手法で評価した結果,提案手法では,モデルの有用性を著しく低下させることなく,勾配ベースのインジェクション攻撃に対する攻撃成功率の低減を図ることができ,提案手法は1.6\times$から9.2\times$に低下することがわかった。
関連論文リスト
- One Trigger Token Is Enough: A Defense Strategy for Balancing Safety and Usability in Large Language Models [20.42976162135529]
大規模言語モデル(LLM)は、仮想アシスタント、自動コード生成、科学研究など、さまざまな領域で広く使われている。
我々は,与えられた安全対応LLMの安全トリガトークンを識別し,明示的に復号する,シンプルで効果的な防衛アルゴリズムであるtextttD-STT を提案する。
論文 参考訳(メタデータ) (2025-05-12T01:26:50Z) - CachePrune: Neural-Based Attribution Defense Against Indirect Prompt Injection Attacks [47.62236306990252]
大規模言語モデル (LLM) は間接的なインジェクション攻撃の影響を受けやすい。
この脆弱性は、プロンプト内のデータと命令を区別できないLLMが原因である。
本稿では,タスクトリガリングニューロンの識別と解析により,この攻撃を防御するCachePruneを提案する。
論文 参考訳(メタデータ) (2025-04-29T23:42:21Z) - Token-Efficient Prompt Injection Attack: Provoking Cessation in LLM Reasoning via Adaptive Token Compression [12.215295420714787]
推論割り込み攻撃(Reasoning Interruption Attack)は、適応トークン圧縮に基づく即発インジェクション攻撃である。
本研究では,アタックプロンプトと適応トークン圧縮フレームワークを効率的に収集するための体系的アプローチを開発する。
実効攻撃能力を保ちながら,我々の圧縮フレームワークがプロンプト長を大幅に短縮することを示す実験を行った。
論文 参考訳(メタデータ) (2025-04-29T07:34:22Z) - A generative approach to LLM harmfulness detection with special red flag tokens [15.796683630119654]
我々はレッドフラッグトークン(rf>)と呼ばれる特別なトークンでモデルの語彙を拡張することを提案する。
本発明の安全性訓練方法は、会話中に常に有害な生成分類器にLLMを効果的に増強する。
また、入力プロンプトだけでなく、生成された各回答を評価し、サンプリングベースの攻撃に対してより強力な防御を提供する。
論文 参考訳(メタデータ) (2025-02-22T21:48:48Z) - Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。
そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。
本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文 参考訳(メタデータ) (2024-11-01T04:05:59Z) - Signed-Prompt: A New Approach to Prevent Prompt Injection Attacks
Against LLM-Integrated Applications [0.0]
本稿では,早期のインジェクション攻撃に対する新しい解決策として,Signed-Prompt法を提案する。
この研究には、権限のあるユーザによるコマンドセグメント内の機密命令の署名が含まれており、LLMは信頼できる命令ソースを識別することができる。
実験はSigned-Prompt法の有効性を示し、様々な種類のプロンプトインジェクション攻撃に対してかなりの抵抗を示した。
論文 参考訳(メタデータ) (2024-01-15T11:44:18Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Adversarial Camouflage for Node Injection Attack on Graphs [64.5888846198005]
グラフニューラルネットワーク(GNN)に対するノードインジェクション攻撃は、GNNのパフォーマンスを高い攻撃成功率で低下させる能力のため、近年注目を集めている。
本研究は,これらの攻撃が現実的なシナリオでしばしば失敗することを示す。
これを解決するため,我々はカモフラージュノードインジェクション攻撃(camouflage node Injection attack)に取り組んだ。
論文 参考訳(メタデータ) (2022-08-03T02:48:23Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。