Fugu-MT 論文翻訳(概要): Indirect Prompt Injection in the Wild: An Empirical Study of Prevalence, Techniques, and Objectives

論文の概要: Indirect Prompt Injection in the Wild: An Empirical Study of Prevalence, Techniques, and Objectives

arxiv url: http://arxiv.org/abs/2604.27202v1
Date: Wed, 29 Apr 2026 21:09:21 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-01 16:31:53.807343
Title: Indirect Prompt Injection in the Wild: An Empirical Study of Prevalence, Techniques, and Objectives
Title（参考訳）: 野生における間接プロンプト注入--有病率・技術・目的の実証的研究
Authors: Soheil Khodayari, Xuenan Zhang, Bhupendra Acharya, Giancarlo Pellegrino,
Abstract要約: LLMは、Webコンテンツを閲覧、検索、要約、動作させるシステムに統合されつつある。これにより、サイトオーナー、コントリビュータ、および敵が直接Webリソースに命令を埋め込むことができる。本稿では,WebページやHTTP応答における間接的インジェクションの大規模解析について紹介する。
参考スコア（独自算出の注目度）: 15.03910974112065
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As LLMs are increasingly integrated into systems that browse, retrieve, summarize, and act on web content, webpages have become an untrusted input vector for downstream model behavior. This enables site owners, contributors, and adversaries to embed instructions directly in web resources, i.e., indirect prompt injections. While prior work demonstrates such attacks in controlled settings, their prevalence, deployment, and real-world impact remain unclear. We present one of the first large-scale empirical analyses of indirect prompt injections in webpages and HTTP responses. Analyzing 1.2B URLs from 24.8M hosts, we identify 15.3K validated instances across 11.7K pages. These are not isolated cases: a small number of recurring templates account for most cases. We characterize their objectives, delivery mechanisms, visibility, persistence, and impact, revealing a heterogeneous ecosystem spanning disruptive prompts, reputation manipulation, content-protection directives, and AI-bot detection, targeting systems such as crawlers, search pipelines, customer-support agents, and hiring workflows. A key finding is that most instructions target machines rather than humans: about 70% appear in non-rendered HTML (e.g., headers, comments, metadata), and many visible cases are hidden via rendering techniques. To assess practical risk, we run 5,200 controlled experiments across 13 models and four webpage representations. Our results show compliance is limited but non-negligible, reaching up to 8% for smaller models on plain-text inputs, while structured representations reduce compliance by preserving structural cues. Overall, prompt-based interference is already present in the web ecosystem and represents a growing source of tension between LLM-driven automation and the sites it consumes.
Abstract（参考訳）: LLM が Web コンテンツを閲覧,検索,要約,動作するシステムに統合されるにつれて,Web ページは下流モデル行動のための信頼できない入力ベクトルになりつつある。これにより、サイト所有者、コントリビュータ、および敵は、間接的なプロンプトインジェクションとして、直接Webリソースに命令を埋め込むことができる。事前の作業では、コントロールされた設定でこのような攻撃を実証しているが、その頻度、デプロイメント、実際の影響は明確ではない。本稿では,WebページやHTTP応答における間接的インジェクションの大規模解析について紹介する。 248万のホストから1.2BのURLを分析し、11.7Kページにわたる15.3Kの検証済みインスタンスを特定した。これらは孤立したケースではなく、ほとんどの場合、少数の繰り返しテンプレートが原因である。破壊的なプロンプト、評判操作、コンテンツ保護ディレクティブ、AIボット検出、クローラ、サーチパイプライン、カスタマーエージェントエージェント、雇用ワークフローなどを含む異種エコシステムを明らかにすることで、彼らの目標、デリバリメカニズム、可視性、永続性、影響を特徴づけます。キーとなる発見は、ほとんどの命令は人間ではなくマシンをターゲットにしているということだ。約70%はレンダリングされていないHTML(例えば、ヘッダ、コメント、メタデータ)に表示され、多くの目に見えるケースはレンダリング技術を介して隠されている。実用的リスクを評価するため,13のモデルと4つのWebページ表現に対して5,200の制御実験を行った。本研究の結果は, コンプライアンスは限定的ではあるが無視不可能であり, 構造的表現は構造的手がかりの保存によるコンプライアンスの低減を図りながら, 平文入力のより小さなモデルでは最大8%に達することを示した。全体として、プロンプトベースの干渉はWebエコシステムにすでに存在しており、LLM駆動の自動化とそれが消費するサイトとの間の緊張の源となっている。

関連論文リスト

SnapGuard: Lightweight Prompt Injection Detection for Screenshot-Based Web Agents [32.00656418129339]
本稿では,Webページのスクリーンショットからインジェクション攻撃を検出する軽量かつ高精度なSnapGuardを提案する。我々は、SnapGuardがF1スコア0.75を達成し、GPT-4o-promptを8倍高速(1.81s vs. 14.50s)で上回り、メモリオーバーヘッドを追加しないことを示した。
論文参考訳（メタデータ） (2026-04-28T12:32:21Z)
WebAgentGuard: A Reasoning-Driven Guard Model for Detecting Prompt Injection Attacks in Web Agents [117.65855863464863]
Webエージェントはインジェクション攻撃に対して非常に脆弱である。システム・プロンプト・ディフェンス(英語版)やエージェントの直接微調整を含む既存の防御は、効果が限られている。本稿では,WebAgentGuardを導入し,インジェクション検出のためのマルチモーダルガードモデルを提案する。
論文参考訳（メタデータ） (2026-04-14T04:50:35Z)
Silent Egress: When Implicit Prompt Injection Makes LLM Agents Leak Without a Trace [0.0]
自動生成されたURLプレビューに埋め込まれた敵対的命令は、サイレント・エクスプレスと呼ばれるシステムレベルのリスクをもたらす可能性があることを示す。完全にローカルで再現可能なテストベッドを使用して、悪意のあるWebページがエージェントを誘導し、機密性の高いランタイムコンテキストを透過するアウトバウンドリクエストを発行できることを実証する。 qwen2.5:7bをベースとした480の実験では、攻撃は高い確率 (P (exress) =0.89) で成功し、95%の攻撃は出力ベースの安全チェックでは検出されない。
論文参考訳（メタデータ） (2026-02-25T22:26:23Z)
Overcoming the Retrieval Barrier: Indirect Prompt Injection in the Wild for LLM Systems [7.15710884787427]
大規模言語モデル(LLM)は、外部コーパスから情報を取得することにますます依存している。これにより新たな攻撃面が生成される:間接的プロンプトインジェクション(IPI) 本稿では,自然クエリと現実的な外部コーパスに基づいて,エンド・ツー・エンド IPI エクスプロイトを初めて提示する。
論文参考訳（メタデータ） (2026-01-11T21:33:59Z)
It's a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents [52.81924177620322]
大規模な言語モデルを利用したWebベースのエージェントは、メール管理やプロフェッショナルネットワーキングといったタスクにますます利用されている。動的Webコンテンツへの依存は、インジェクション攻撃の引き金に弱い: インターフェース要素に隠された敵対的命令は、エージェントが元のタスクから逸脱するように説得する。本稿では,タスクリダイレクトエージェントの説得ベンチマーク(TRAP)について紹介する。
論文参考訳（メタデータ） (2025-12-29T01:09:10Z)
BrowserArena: Evaluating LLM Agents on Real-World Web Navigation Tasks [51.803138848305814]
我々はBrowserArenaを紹介した。BrowserArenaは、ユーザから送信されたタスクを収集するオープンソースのエージェント評価プラットフォームである。 Captcha解決、ポップアップバナー削除、URLへのダイレクトナビゲーションの3つの一貫した障害モードを特定します。本研究は,Webエージェントの多様性と脆性の両方を明らかにする。
論文参考訳（メタデータ） (2025-10-02T15:22:21Z)
Poison Once, Control Anywhere: Clean-Text Visual Backdoors in VLM-based Mobile Agents [54.35629963816521]
この研究は、VLMベースのモバイルエージェントをターゲットにした最初のクリーンテキストバックドアアタックであるVIBMAを紹介する。この攻撃は、視覚的な入力だけを変更することによって、悪意ある振る舞いをモデルに注入する。クリーンタスクの動作を保ちながら高い成功率を達成できることを示す。
論文参考訳（メタデータ） (2025-06-16T08:09:32Z)
From Past to Present: A Survey of Malicious URL Detection Techniques, Datasets and Code Repositories [3.323388021979584]
悪意のあるURLは、ユーザーを騙してプライベートデータを拡散させたり、ホストシステムに侵入するために有害なペイロードを配布することで、サイバーセキュリティエコシステムを絶えず脅かしている。本稿では,従来のブラックリストから高度なディープラーニングアプローチまで,手法を体系的に分析する。従来の調査とは違って,既存の研究を主要なデータモダリティに応じて分類する,新しいモダリティに基づく分類法を提案する。
論文参考訳（メタデータ） (2025-04-23T06:23:18Z)
Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。 AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文参考訳（メタデータ） (2024-06-18T17:32:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。