Fugu-MT 論文翻訳(概要): Defending against Indirect Prompt Injection by Instruction Detection

論文の概要: Defending against Indirect Prompt Injection by Instruction Detection

arxiv url: http://arxiv.org/abs/2505.06311v1
Date: Thu, 08 May 2025 13:04:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-13 20:21:48.773195
Title: Defending against Indirect Prompt Injection by Instruction Detection
Title（参考訳）: 指示検出による間接プロンプト注入に対する防御
Authors: Tongyu Wen, Chenglong Wang, Xiyuan Yang, Haoyu Tang, Yueqi Xie, Lingjuan Lyu, Zhicheng Dou, Fangzhao Wu,
Abstract要約: 本稿では, 外部データを入力として取り込んで, 前方および後方の伝搬中におけるLCMの動作状態を利用して, 潜在的なIPI攻撃を検出する手法を提案する。提案手法は,ドメイン内設定で99.60%,ドメイン外設定で96.90%,攻撃成功率でBIPIAベンチマークで0.12%に低下する。
参考スコア（独自算出の注目度）: 81.98614607987793
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The integration of Large Language Models (LLMs) with external sources is becoming increasingly common, with Retrieval-Augmented Generation (RAG) being a prominent example. However, this integration introduces vulnerabilities of Indirect Prompt Injection (IPI) attacks, where hidden instructions embedded in external data can manipulate LLMs into executing unintended or harmful actions. We recognize that the success of IPI attacks fundamentally relies in the presence of instructions embedded within external content, which can alter the behavioral state of LLMs. Can effectively detecting such state changes help us defend against IPI attacks? In this paper, we propose a novel approach that takes external data as input and leverages the behavioral state of LLMs during both forward and backward propagation to detect potential IPI attacks. Specifically, we demonstrate that the hidden states and gradients from intermediate layers provide highly discriminative features for instruction detection. By effectively combining these features, our approach achieves a detection accuracy of 99.60\% in the in-domain setting and 96.90\% in the out-of-domain setting, while reducing the attack success rate to just 0.12\% on the BIPIA benchmark.
Abstract（参考訳）: 大規模言語モデル(LLM)と外部ソースの統合はますます一般的になりつつある。しかし、この統合はインダイレクト・プロンプト・インジェクション(IPI)攻撃の脆弱性を導入し、外部データに埋め込まれた隠された命令がLSMを操作して意図しないあるいは有害なアクションを実行する。 IPI攻撃の成功は、基本的に外部コンテンツに埋め込まれた命令の存在に依存しており、LCMの行動状態を変える可能性があることを認識している。このような状態変化を効果的に検出することは、IPI攻撃に対する防御に役立ちますか? 本稿では,外部データを入力として取り込んで,前方および後方の伝搬中のLCMの挙動状態を利用してIPI攻撃を検知する手法を提案する。具体的には,中間層からの隠れ状態と勾配が,命令検出に高い差別性をもたらすことを示す。これらの特徴を効果的に組み合わせることで、本手法はドメイン内設定の99.60\%、ドメイン外設定の96.90\%の検出精度を達成し、BIPIAベンチマークの攻撃成功率を0.12\%に抑える。

関連論文リスト

TopicAttack: An Indirect Prompt Injection Attack via Topic Transition [71.81906608221038]
大規模言語モデル(LLM)は間接的なインジェクション攻撃に対して脆弱である。提案するTopicAttackは,LLMに生成した遷移プロンプトを生成し,徐々にトピックをインジェクション命令にシフトさせる。提案手法は, インジェクトからオリジナルへのアテンション比が高く, 成功確率が高く, ベースライン法よりもはるかに高い比を達成できることがわかった。
論文参考訳（メタデータ） (2025-07-18T06:23:31Z)
CachePrune: Neural-Based Attribution Defense Against Indirect Prompt Injection Attacks [47.62236306990252]
大規模言語モデル (LLM) は間接的なインジェクション攻撃の影響を受けやすい。この脆弱性は、プロンプト内のデータと命令を区別できないLLMが原因である。本稿では,タスクトリガリングニューロンの識別と解析により,この攻撃を防御するCachePruneを提案する。
論文参考訳（メタデータ） (2025-04-29T23:42:21Z)
DataSentinel: A Game-Theoretic Detection of Prompt Injection Attacks [101.52204404377039]
LLM統合されたアプリケーションとエージェントは、インジェクション攻撃に弱い。検出方法は、入力が注入プロンプトによって汚染されているかどうかを判定することを目的とする。本研究では,迅速なインジェクション攻撃を検出するゲーム理論手法であるDataSentinelを提案する。
論文参考訳（メタデータ） (2025-04-15T16:26:21Z)
HiddenDetect: Detecting Jailbreak Attacks against Large Vision-Language Models via Monitoring Hidden States [17.601328965546617]
本研究は,LVLMが内的アクティベーションにおける安全性関連信号を本質的にエンコードしているかどうかを考察する。その結果,LVLMは安全でないプロンプトを処理する際に,異なる活性化パターンを示すことが明らかとなった。 HiddenDetectは、内部モデルのアクティベーションを活用して安全性を高める、新しいチューニング不要のフレームワークである。
論文参考訳（メタデータ） (2025-02-20T17:14:34Z)
Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文参考訳（メタデータ） (2024-11-01T04:05:59Z)
Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift [104.76588209308666]
本稿では,LVLMの学習訓練におけるバックドア攻撃について検討する。我々は,攻撃の堅牢性を評価するために,新たな評価次元,バックドア領域の一般化を導入する。本稿では,ドメイン非依存的トリガを臨界領域に注入するマルチモーダルアトリビューションバックドアアタック(MABA)を提案する。
論文参考訳（メタデータ） (2024-06-27T02:31:03Z)
Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文参考訳（メタデータ） (2023-12-21T01:08:39Z)
ASSET: Robust Backdoor Data Detection Across a Multiplicity of Deep Learning Paradigms [39.753721029332326]
バックドアデータ検出は、エンドツーエンドの教師あり学習(SL)設定で伝統的に研究されている。近年,ラベル付きデータの必要性の低さから,自己教師付き学習(SSL)や転送学習(TL)の普及が進んでいる。既存の検出手法の性能は様々な攻撃や毒素比で大きく異なり、すべて最先端のクリーンラベル攻撃では失敗する。
論文参考訳（メタデータ） (2023-02-22T14:43:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。