論文の概要: An Empirical Study of Privacy Leakage Chains via Prompt Injection in Black-Box Chatbot Environments
- arxiv url: http://arxiv.org/abs/2605.18133v1
- Date: Mon, 18 May 2026 09:38:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.230783
- Title: An Empirical Study of Privacy Leakage Chains via Prompt Injection in Black-Box Chatbot Environments
- Title(参考訳): ブラックボックスチャットボット環境におけるプロンプト注入によるプライバシ漏洩連鎖の実証的研究
- Authors: Hongjang Yang, Hyunsik Na, Daeseon Choi,
- Abstract要約: 本稿では,間接的プロンプトインジェクションに基づくプライバシフリー・アタック・チェーンについて検討する。
まず、攻撃者が被疑者の意図したタスクをハイジャックする方法について分析する。
次に、ユーザプロンプトと検索ページの良質な開始を再構成するために、外部コンテンツにブリッジを用いた「例示」と呼ばれる新しいプロンプト言語手法を評価する。
- 参考スコア(独自算出の注目度): 3.275342475988451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-based chatbot agents increasingly process user requests by combining natural-language reasoning with external tools such as web browsing. These capabilities improve usability, but they also create attack surfaces when untrusted external content is processed as part of a user' s task. This paper studies a privacy-leakage attack chain based on indirect prompt injection in black-box chatbot environments, where the attacker has no access to model weights, system prompts, or agent implementation details including how a trajectory is actually managed during its processing for a query. We first analyze how an attacker can hijack an agent' s intended task by crafting external content that appears benign to the victim while inducing the agent to execute an attacker-defined objective. We then evaluate a new prompt-injection technique, called exemplification, which uses a bridge in the external content to reframe the user prompt and the benign beginning of the retrieved page as few-shot examples before appending the attacker' s objective. We compare its attack success rate with a prior fake-completion technique. Finally, we demonstrate a proof-of-concept data-exfiltration chain using fictitious personal information in a controlled setting. Our results suggest that prompt injection, jailbreak-style instruction steering, and web-tool invocation can be combined into a feasible privacy-leakage path in deployed chatbot agents.
- Abstract(参考訳): LLMベースのチャットボットエージェントは、自然言語推論とWebブラウジングなどの外部ツールを組み合わせることで、ユーザ要求を処理するようになっている。
これらの機能はユーザビリティを向上させるが、信頼できない外部コンテンツがユーザのタスクの一部として処理されると、攻撃面も生成する。
本稿では,ブラックボックスチャットボット環境において,攻撃者がモデルウェイトやシステムプロンプト,エージェント実装の詳細にアクセスできないような間接的なプロンプトインジェクションに基づくプライバシリー攻撃チェーンについて検討する。
まず,攻撃者が被攻撃者の意図したタスクをハイジャックするには,被攻撃者の意図した目的を実行するためにエージェントを誘導しながら,被攻撃者の意図した外部コンテンツを作成する。
次に, ユーザプロンプトと検索ページの良性開始を, 攻撃者の目的を付加する前に, ユーザプロンプトとベニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグ
我々は、その攻撃成功率を、以前のフェイクコンプリート手法と比較する。
最後に,虚偽の個人情報を制御された環境で利用した概念データ抽出チェーンの実証実験を行った。
以上の結果から,迅速なインジェクション,ジェイルブレイクスタイルの指導ステアリング,Webツールの呼び出しを,デプロイされたチャットボットエージェントにおいて実現可能なプライバシー保護パスに統合できることが示唆された。
関連論文リスト
- Trojan's Whisper: Stealthy Manipulation of OpenClaw through Injected Bootstrapped Guidance [23.059379933610163]
ガイダンスインジェクション(Guidance Injection)は、ブートストラップのガイダンスファイルに敵の運用ストーリーを埋め込むステルス攻撃ベクターである。
エクスプロイト,ワークスペース破壊,特権エスカレーション,持続的バックドア設置など,13の攻撃カテゴリにまたがる26の悪意あるスキルを構築した。
我々の攻撃は16.4%から64.2%の確率で成功し、悪意のある行動の大半はユーザーの確認なしに自律的に実行される。
論文 参考訳(メタデータ) (2026-03-20T14:17:56Z) - Silent Egress: When Implicit Prompt Injection Makes LLM Agents Leak Without a Trace [0.0]
自動生成されたURLプレビューに埋め込まれた敵対的命令は、サイレント・エクスプレスと呼ばれるシステムレベルのリスクをもたらす可能性があることを示す。
完全にローカルで再現可能なテストベッドを使用して、悪意のあるWebページがエージェントを誘導し、機密性の高いランタイムコンテキストを透過するアウトバウンドリクエストを発行できることを実証する。
qwen2.5:7bをベースとした480の実験では、攻撃は高い確率 (P (exress) =0.89) で成功し、95%の攻撃は出力ベースの安全チェックでは検出されない。
論文 参考訳(メタデータ) (2026-02-25T22:26:23Z) - Zombie Agents: Persistent Control of Self-Evolving LLM Agents via Self-Reinforcing Injections [57.64370755825839]
セルフ進化エージェントはセッション間で内部状態を更新する。
我々はこのリスクを調査し、Zombie Agentと呼ばれる永続的な攻撃を形式化する。
我々は,攻撃者が制御するWebコンテンツを通じて間接的露光のみを使用するブラックボックス攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-17T15:28:24Z) - SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - MUZZLE: Adaptive Agentic Red-Teaming of Web Agents Against Indirect Prompt Injection Attacks [10.431616150153992]
MUZZLEは、間接的なプロンプトインジェクション攻撃に対するWebエージェントのセキュリティを評価する自動化フレームワークである。
エージェントの観察された実行軌跡に基づいて攻撃戦略を適用し、失敗した実行からのフィードバックを使用して攻撃を反復的に洗練する。
MUZZLEは、機密性、可用性、プライバシ特性に反する10の敵目標を持つ4つのWebアプリケーションに対する37の新たな攻撃を効果的に発見する。
論文 参考訳(メタデータ) (2026-02-09T21:46:18Z) - Attacks by Content: Automated Fact-checking is an AI Security Issue [1.5770741892463622]
これまでの研究では、攻撃者が悪意のある指示を注入する間接的なプロンプトインジェクションが研究されてきた。
我々は、エージェントを操作するために命令の注入は必要ないと主張する。
隠れたコマンドを検出することに焦点を当てた既存の防御は、コンテンツによる攻撃に対して効果がない。
論文 参考訳(メタデータ) (2025-10-13T10:18:48Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - Cuckoo Attack: Stealthy and Persistent Attacks Against AI-IDE [64.47951172662745]
Cuckoo Attackは、悪意のあるペイロードを構成ファイルに埋め込むことで、ステルス性と永続的なコマンド実行を実現する新しい攻撃である。
攻撃パラダイムを初期感染と持続性という2つの段階に分類する。
当社は、ベンダーが製品のセキュリティを評価するために、実行可能な7つのチェックポイントを提供しています。
論文 参考訳(メタデータ) (2025-09-19T04:10:52Z) - A Whole New World: Creating a Parallel-Poisoned Web Only AI-Agents Can See [0.0]
悪意のあるWebサイトは、受信した要求をAIエージェントから派生したものとして識別し、そのコンテンツの異なる“クラック”バージョンを動的に提供する。
人間のユーザーは良心的なWebページを見るが、エージェントには、隠された悪意のある命令が埋め込まれた視覚的に同一のページが表示される。
この研究は脅威モデルを形式化し、エージェントフィンガープリントとクローキングの仕組みを詳述し、エージェントAIの将来に対する深刻なセキュリティへの影響について論じる。
論文 参考訳(メタデータ) (2025-08-29T08:14:52Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。