論文の概要: VortexPIA: Indirect Prompt Injection Attack against LLMs for Efficient Extraction of User Privacy
- arxiv url: http://arxiv.org/abs/2510.04261v1
- Date: Sun, 05 Oct 2025 15:58:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.546081
- Title: VortexPIA: Indirect Prompt Injection Attack against LLMs for Efficient Extraction of User Privacy
- Title(参考訳): VortexPIA: ユーザプライバシの効率的な抽出のためのLCMに対する間接的プロンプトインジェクション攻撃
- Authors: Yu Cui, Sicheng Pan, Yifei Liu, Haibin Zhang, Cong Zuo,
- Abstract要約: 大規模言語モデル(LLM)は、会話型AI(CAI)に広くデプロイされている。
近年の研究では、LLMベースのCAIを操作して、人間から個人情報を抽出し、重大なセキュリティ上の脅威を生じさせることが示されている。
ブラックボックス設定下でのプライバシー抽出を誘導する新しい間接的インジェクション攻撃であるtextscVortexPIAを提案する。
- 参考スコア(独自算出の注目度): 22.037235521470468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have been widely deployed in Conversational AIs (CAIs), while exposing privacy and security threats. Recent research shows that LLM-based CAIs can be manipulated to extract private information from human users, posing serious security threats. However, the methods proposed in that study rely on a white-box setting that adversaries can directly modify the system prompt. This condition is unlikely to hold in real-world deployments. The limitation raises a critical question: can unprivileged attackers still induce such privacy risks in practical LLM-integrated applications? To address this question, we propose \textsc{VortexPIA}, a novel indirect prompt injection attack that induces privacy extraction in LLM-integrated applications under black-box settings. By injecting token-efficient data containing false memories, \textsc{VortexPIA} misleads LLMs to actively request private information in batches. Unlike prior methods, \textsc{VortexPIA} allows attackers to flexibly define multiple categories of sensitive data. We evaluate \textsc{VortexPIA} on six LLMs, covering both traditional and reasoning LLMs, across four benchmark datasets. The results show that \textsc{VortexPIA} significantly outperforms baselines and achieves state-of-the-art (SOTA) performance. It also demonstrates efficient privacy requests, reduced token consumption, and enhanced robustness against defense mechanisms. We further validate \textsc{VortexPIA} on multiple realistic open-source LLM-integrated applications, demonstrating its practical effectiveness.
- Abstract(参考訳): 大規模言語モデル(LLM)は、プライバシとセキュリティの脅威を露呈しながら、会話型AI(CAI)に広くデプロイされている。
近年の研究では、LLMベースのCAIを操作して、人間から個人情報を抽出し、重大なセキュリティ上の脅威を生じさせることが示されている。
しかし、この研究で提案された手法は、敵がシステムプロンプトを直接修正できるホワイトボックス設定に依存している。
この状態が現実のデプロイメントで維持される可能性は低い。
特権のない攻撃者は、実用的LLM統合アプリケーションにおいて、そのようなプライバシーリスクをまだ引き起こせるのか?
そこで本研究では,LCM統合アプリケーションにおいて,ブラックボックス設定下でのプライバシ抽出を誘導する新たな間接的プロンプトインジェクション攻撃である,textsc{VortexPIA}を提案する。
偽の記憶を含むトークン効率のよいデータを注入することで、textsc{VortexPIA} は LLM を誤解して、バッチ内のプライベート情報を積極的に要求する。
以前の方法とは異なり、 \textsc{VortexPIA} では攻撃者は複数の機密データのカテゴリを柔軟に定義できる。
従来の LLM と推論 LLM の両方を4つのベンチマークデータセットでカバーし、6つの LLM 上で \textsc{VortexPIA} を評価する。
その結果,textsc{VortexPIA} はベースラインを著しく上回り,SOTA(State-of-the-art)のパフォーマンスを実現していることがわかった。
また、効率的なプライバシ要求、トークン消費の削減、防御メカニズムに対する堅牢性の向上も示している。
さらに,複数のリアルなオープンソース LLM 統合アプリケーションに対して \textsc{VortexPIA} を検証し,その有効性を実証した。
関連論文リスト
- Better Privilege Separation for Agents by Restricting Data Types [6.028799607869068]
大規模言語モデル(LLM)のタイプ指向特権分離を提案する。
我々は、信頼できないコンテンツをキュレートされたデータ型に変換することによって、LDMがサードパーティのデータと対話する能力を制限する。
生文字列とは異なり、各データ型はスコープとコンテントに制限されており、プロンプトインジェクションの可能性を排除している。
論文 参考訳(メタデータ) (2025-09-30T08:20:50Z) - Multi-Stage Prompt Inference Attacks on Enterprise LLM Systems [18.039444159491733]
エンタープライズ環境にデプロイされる大規模言語モデル(LLM)は、新たなセキュリティ課題に直面している。
敵同士が連携して、徐々に機密データを抽出するように仕向ける。
企業LLMコンテキストにおける多段階的プロンプト推論攻撃の包括的研究について述べる。
論文 参考訳(メタデータ) (2025-07-21T13:38:12Z) - Towards Label-Only Membership Inference Attack against Pre-trained Large Language Models [34.39913818362284]
メンバーシップ推論攻撃(MIA)は、データサンプルがモデルのトレーニングセットに属しているかどうかを予測することを目的としている。
textbfPETAL: textbfPEr-textbfToken semtextbfAntic simitextbfLLに基づくラベルのみのメンバシップ推論攻撃を提案する。
論文 参考訳(メタデータ) (2025-02-26T08:47:19Z) - SecAlign: Defending Against Prompt Injection with Preference Optimization [52.48001255555192]
敵のプロンプトは外部のデータソースに注入され、システムの意図した命令をオーバーライドし、悪意のある命令を実行する。
我々は、好みの最適化技術に基づくSecAlignと呼ばれる新しいディフェンスを提案する。
本手法は,訓練中に見られたものよりもはるかに高度な攻撃に対しても,様々なプロンプトインジェクションの成功率を10%に下げる。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - Evaluating LLM-based Personal Information Extraction and Countermeasures [63.91918057570824]
大規模言語モデル(LLM)に基づく個人情報抽出をベンチマークすることができる。
LLMは攻撃者によって誤用され、個人プロファイルから様々な個人情報を正確に抽出する。
プロンプトインジェクションは強力なLDMベースの攻撃に対して防御し、攻撃をより効果的でない従来の攻撃に還元する。
論文 参考訳(メタデータ) (2024-08-14T04:49:30Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。