Fugu-MT 論文翻訳(概要): Can Indirect Prompt Injection Attacks Be Detected and Removed?

論文の概要: Can Indirect Prompt Injection Attacks Be Detected and Removed?

arxiv url: http://arxiv.org/abs/2502.16580v1
Date: Sun, 23 Feb 2025 14:02:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:56.238373
Title: Can Indirect Prompt Injection Attacks Be Detected and Removed?
Title（参考訳）: 間接的プロンプト・インジェクション・アタックの検出と除去は可能か?
Authors: Yulin Chen, Haoran Li, Yuan Sui, Yufei He, Yue Liu, Yangqiu Song, Bryan Hooi,
Abstract要約: 間接的インジェクション攻撃の検出・除去の可能性について検討した。検出のために,既存のLCMとオープンソースの検出モデルの性能を評価する。そこで本研究では,(1) インジェクション命令を含む部分をセグメント化して除去するセグメンテーション除去法,(2) 抽出モデルを訓練してインジェクション命令を識別・除去する抽出除去法,の2つの直感的手法を評価する。
参考スコア（独自算出の注目度）: 68.6543680065379
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prompt injection attacks manipulate large language models (LLMs) by misleading them to deviate from the original input instructions and execute maliciously injected instructions, because of their instruction-following capabilities and inability to distinguish between the original input instructions and maliciously injected instructions. To defend against such attacks, recent studies have developed various detection mechanisms. While significant efforts have focused on detecting direct prompt injection attacks, where injected instructions are directly from the attacker who is also the user, limited attention has been given to indirect prompt injection attacks, where injected instructions are indirectly from external tools, such as a search engine. Moreover, current works mainly investigate injection detection methods and pay less attention to the post-processing method that aims to mitigate the injection after detection. In this paper, we investigate the feasibility of detecting and removing indirect prompt injection attacks, and we construct a benchmark dataset for evaluation. For detection, we assess the performance of existing LLMs and open-source detection models, and we further train detection models using our crafted training datasets. For removal, we evaluate two intuitive methods: (1) the segmentation removal method, which segments the injected document and removes parts containing injected instructions, and (2) the extraction removal method, which trains an extraction model to identify and remove injected instructions.
Abstract（参考訳）: プロンプトインジェクション攻撃は、元の入力命令と悪意のあるインストラクションとを区別できないため、元の入力命令から逸脱させ、悪意あるインストラクションを実行することで、大きな言語モデル(LLM)を操作する。このような攻撃に対する防御策として、近年では様々な検出機構が開発されている。直接的インジェクション攻撃(インジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインさらに, 噴射検出法を主に検討し, 検出後の噴射を緩和することを目的とした後処理法に注意を払っていない。本稿では,間接的プロンプトインジェクション攻撃の検出と除去の実現可能性について検討し,評価のためのベンチマークデータセットを構築した。検出のために,既存のLCMとオープンソースの検出モデルの性能を評価し,また,我々のクラフトトレーニングデータセットを用いた検出モデルをさらに訓練する。そこで本研究では,(1) インジェクション命令を含む部分をセグメント化して除去するセグメンテーション除去法,(2) 抽出モデルを訓練してインジェクション命令を識別・除去する抽出除去法,の2つの直感的手法を評価する。

関連論文リスト

TopicAttack: An Indirect Prompt Injection Attack via Topic Transition [71.81906608221038]
大規模言語モデル(LLM)は間接的なインジェクション攻撃に対して脆弱である。提案するTopicAttackは,LLMに生成した遷移プロンプトを生成し,徐々にトピックをインジェクション命令にシフトさせる。提案手法は, インジェクトからオリジナルへのアテンション比が高く, 成功確率が高く, ベースライン法よりもはるかに高い比を達成できることがわかった。
論文参考訳（メタデータ） (2025-07-18T06:23:31Z)
Defending against Indirect Prompt Injection by Instruction Detection [81.98614607987793]
本稿では, 外部データを入力として取り込んで, 前方および後方の伝搬中におけるLCMの動作状態を利用して, 潜在的なIPI攻撃を検出する手法を提案する。提案手法は,ドメイン内設定で99.60%,ドメイン外設定で96.90%,攻撃成功率でBIPIAベンチマークで0.12%に低下する。
論文参考訳（メタデータ） (2025-05-08T13:04:45Z)
Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction [68.6543680065379]
大型言語モデル(LLM)はインジェクション攻撃に弱い。本研究では,LLMの命令追従能力を抑えるのではなく,新たな防御手法を提案する。
論文参考訳（メタデータ） (2025-04-29T07:13:53Z)
DataSentinel: A Game-Theoretic Detection of Prompt Injection Attacks [101.52204404377039]
LLM統合されたアプリケーションとエージェントは、インジェクション攻撃に弱い。検出方法は、入力が注入プロンプトによって汚染されているかどうかを判定することを目的とする。本研究では,迅速なインジェクション攻撃を検出するゲーム理論手法であるDataSentinelを提案する。
論文参考訳（メタデータ） (2025-04-15T16:26:21Z)
ASIDE: Architectural Separation of Instructions and Data in Language Models [87.16417239344285]
本稿では,埋め込みレベルにおける命令とデータを明確に分離する手法ASIDEを提案する。 ASIDEはデータトークンの埋め込みに固定回転を適用し、追加のパラメータを導入することなく、命令とデータトークンの異なる表現を生成する。提案手法の有効性を,(1)モデル能力の低下を伴わない命令データ分離スコアの高度化と,(2)専用の安全訓練を伴わずともインジェクションベンチマークにおける競合結果を示す。
論文参考訳（メタデータ） (2025-03-13T17:17:17Z)
Prompt Inject Detection with Generative Explanation as an Investigative Tool [0.0]
大規模言語モデル(LLM)は、敵のプロンプトベースのインジェクションに対して脆弱である。本研究では, LLMのテキスト生成機能を用いて, インジェクションの検出を行う。
論文参考訳（メタデータ） (2025-02-16T06:16:00Z)
Defense Against Prompt Injection Attack by Leveraging Attack Techniques [66.65466992544728]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクで顕著なパフォーマンスを実現している。 LLMが進化を続けるにつれて、新しい脆弱性、特にインジェクション攻撃が発生する。近年の攻撃手法は, LLMの命令追従能力とデータ内容に注入された命令を識別する能力を活用している。
論文参考訳（メタデータ） (2024-11-01T09:14:21Z)
Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文参考訳（メタデータ） (2024-11-01T04:05:59Z)
Maatphor: Automated Variant Analysis for Prompt Injection Attacks [7.93367270029538]
現在のプロンプトインジェクション技術に対する防御のベストプラクティスは、システムにガードレールを追加することである。本稿では,既知のプロンプトインジェクション攻撃の自動変種解析において,ディフェンダーを支援するツールを提案する。
論文参考訳（メタデータ） (2023-12-12T14:22:20Z)
Exploiting Machine Unlearning for Backdoor Attacks in Deep Learning System [4.9233610638625604]
マシンアンラーニングに基づく新しいブラックボックスバックドア攻撃を提案する。攻撃者はまず、毒や緩和データを含む慎重に設計されたサンプルでトレーニングセットを強化し、良心のモデルを訓練する。そして、攻撃者は、モデルの関連するデータの影響を取り除くために、未学習のサンプルに対するリクエストをポストし、徐々に隠れたバックドアを活性化する。
論文参考訳（メタデータ） (2023-09-12T02:42:39Z)
Towards a Practical Defense against Adversarial Attacks on Deep Learning-based Malware Detectors via Randomized Smoothing [3.736916304884177]
本稿では,ランダムな平滑化に触発された敵のマルウェアに対する現実的な防御法を提案する。本研究では,入力のランダム化にガウスノイズやラプラスノイズを使う代わりに,ランダム化アブレーションに基づく平滑化方式を提案する。 BODMASデータセットに対する様々な最先端の回避攻撃に対するアブレーションモデルの有効性を実証的に評価した。
論文参考訳（メタデータ） (2023-08-17T10:30:25Z)
Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文参考訳（メタデータ） (2023-06-06T14:45:24Z)
Adversarial EXEmples: A Survey and Experimental Evaluation of Practical Attacks on Machine Learning for Windows Malware Detection [67.53296659361598]
EXEmplesは、比較的少ない入力バイトを摂動することで、機械学習に基づく検出をバイパスすることができる。我々は、機械学習モデルに対する過去の攻撃を包含し、一般化するだけでなく、3つの新たな攻撃を含む統一フレームワークを開発する。これらの攻撃はFull DOS、Extended、Shiftと呼ばれ、DOSヘッダをそれぞれ操作し、拡張し、第1セクションの内容を変更することで、敵のペイロードを注入する。
論文参考訳（メタデータ） (2020-08-17T07:16:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。