論文の概要: Overcoming the Retrieval Barrier: Indirect Prompt Injection in the Wild for LLM Systems
- arxiv url: http://arxiv.org/abs/2601.07072v1
- Date: Sun, 11 Jan 2026 21:33:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.149668
- Title: Overcoming the Retrieval Barrier: Indirect Prompt Injection in the Wild for LLM Systems
- Title(参考訳): 検索バリアを克服する: LLMシステムのための野生での間接プロンプト注入
- Authors: Hongyan Chang, Ergute Bao, Xinjian Luo, Ting Yu,
- Abstract要約: 大規模言語モデル(LLM)は、外部コーパスから情報を取得することにますます依存している。
これにより新たな攻撃面が生成される:間接的プロンプトインジェクション(IPI)
本稿では,自然クエリと現実的な外部コーパスに基づいて,エンド・ツー・エンド IPI エクスプロイトを初めて提示する。
- 参考スコア(独自算出の注目度): 7.15710884787427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) increasingly rely on retrieving information from external corpora. This creates a new attack surface: indirect prompt injection (IPI), where hidden instructions are planted in the corpora and hijack model behavior once retrieved. Previous studies have highlighted this risk but often avoid the hardest step: ensuring that malicious content is actually retrieved. In practice, unoptimized IPI is rarely retrieved under natural queries, which leaves its real-world impact unclear. We address this challenge by decomposing the malicious content into a trigger fragment that guarantees retrieval and an attack fragment that encodes arbitrary attack objectives. Based on this idea, we design an efficient and effective black-box attack algorithm that constructs a compact trigger fragment to guarantee retrieval for any attack fragment. Our attack requires only API access to embedding models, is cost-efficient (as little as $0.21 per target user query on OpenAI's embedding models), and achieves near-100% retrieval across 11 benchmarks and 8 embedding models (including both open-source models and proprietary services). Based on this attack, we present the first end-to-end IPI exploits under natural queries and realistic external corpora, spanning both RAG and agentic systems with diverse attack objectives. These results establish IPI as a practical and severe threat: when a user issued a natural query to summarize emails on frequently asked topics, a single poisoned email was sufficient to coerce GPT-4o into exfiltrating SSH keys with over 80% success in a multi-agent workflow. We further evaluate several defenses and find that they are insufficient to prevent the retrieval of malicious text, highlighting retrieval as a critical open vulnerability.
- Abstract(参考訳): 大規模言語モデル(LLM)は、外部コーパスから情報を取得することにますます依存している。
間接的プロンプトインジェクション(IPI)では、隠された命令がコーパスとヒジャックモデルの振る舞いに一度取り込まれる。
これまでの研究は、このリスクを強調してきたが、しばしば最も困難なステップを避ける:悪意のあるコンテンツが実際に回収されることを保証する。
実際には、最適化されていないIPIは自然のクエリで検索されることはめったにないため、実際の影響ははっきりしない。
悪意のあるコンテンツを、検索を保証するトリガーフラグメントと、任意の攻撃目標をエンコードするアタックフラグメントに分解することで、この問題に対処する。
このアイデアに基づいて,攻撃フラグメントの検索を保証するために,コンパクトなトリガフラグメントを構築する,効率的かつ効果的なブラックボックス攻撃アルゴリズムを設計する。
当社の攻撃は、埋め込みモデルへのAPIアクセスのみを必要とし、コスト効率が高く(OpenAIの埋め込みモデルでターゲットユーザクエリ当たり0.21ドル)、11のベンチマークと8の埋め込みモデル(オープンソースモデルとプロプライエタリサービスの両方を含む)でほぼ100%の検索を実現しています。
この攻撃に基づいて、本研究では、RAGとエージェントシステムの両方にまたがる、自然なクエリと現実的な外部コーパスの下で、エンド・ツー・エンドのIPIエクスプロイトを初めて提示する。
ユーザが頻繁に質問されるトピックについてメールを要約する自然なクエリを発行したとき、GPT-4oを強制してマルチエージェントワークフローで80%以上の成功を収めたSSHキーを抽出するのに1つの有毒メールが十分であった。
さらに,いくつかの防御策を評価し,悪意のあるテキストの検索を未然に防ぐには不十分であることを確認し,検索を重要なオープン脆弱性として強調する。
関連論文リスト
- The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - External Data Extraction Attacks against Retrieval-Augmented Large Language Models [70.47869786522782]
RAGは、大規模言語モデル(LLM)を拡張するための重要なパラダイムとして登場した。
RAGは外部データ抽出攻撃(EDEA)の新たなリスクを導入している。
本研究は, EDEA を検索拡張 LLM に対して形式化する最初の総合的研究である。
論文 参考訳(メタデータ) (2025-10-03T12:53:45Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Practical Reasoning Interruption Attacks on Reasoning Large Language Models [0.24963930962128378]
大規模な言語モデル(RLLM)の推論は、さまざまなタスクにわたって優れたパフォーマンスを示してきたが、多くのセキュリティ脆弱性も明らかにしている。
最近の研究で、DeepSeek-R1では、敵対的なプロンプトの下で、明確な"思考停止"脆弱性が特定されている。
我々は,新規なプロンプトインジェクション・アタックを開発し,その根本原因を解析した。
論文 参考訳(メタデータ) (2025-05-10T13:36:01Z) - ELBA-Bench: An Efficient Learning Backdoor Attacks Benchmark for Large Language Models [55.93380086403591]
生成可能な大規模言語モデルは、バックドアアタックに対して脆弱である。
$textitELBA-Bench$は、パラメータを効率的に微調整することで攻撃者がバックドアを注入できるようにする。
$textitELBA-Bench$は1300以上の実験を提供する。
論文 参考訳(メタデータ) (2025-02-22T12:55:28Z) - Document Screenshot Retrievers are Vulnerable to Pixel Poisoning Attacks [72.4498910775871]
ヴィジュアル言語モデル(VLM)ベースのレトリバーは、ベクターとして埋め込まれた文書のスクリーンショットを活用して、効率的な検索を可能にし、従来のテキストのみの手法よりも単純化されたパイプラインを提供する。
本研究では,VLMをベースとしたレトリバーを危険にさらすために,3つのピクセル中毒攻撃手法を提案する。
論文 参考訳(メタデータ) (2025-01-28T12:40:37Z) - GASLITEing the Retrieval: Exploring Vulnerabilities in Dense Embedding-based Search [5.195873909474138]
埋め込みベースのテキスト検索x2013$retrieval from corporax2013$は、ディープラーニングを実現する強力なメソッドステートとして登場した。
しかし、埋め込みベースの検索は、悪意のあるコンテンツを宣伝する検索エンジンの敵に受け入れられる可能性がある。
論文 参考訳(メタデータ) (2024-12-30T13:49:28Z) - You Know What I'm Saying: Jailbreak Attack via Implicit Reference [22.520950422702757]
本研究は、以前見過ごされた脆弱性を特定し、Implicit Reference (AIR) による攻撃(Attack)と呼ぶ。
AIRは悪意のある目的を許容可能な目的に分解し、コンテキスト内の暗黙の参照を通してそれらをリンクする。
我々の実験は、AIRが最先端のLLMに対して有効であることを示し、ほとんどのモデルで90%を超える攻撃成功率(ASR)を達成した。
論文 参考訳(メタデータ) (2024-10-04T18:42:57Z) - Backdoor Attacks on Dense Retrieval via Public and Unintentional Triggers [46.19574403393449]
本稿では,攻撃者が検索システムを誤認して攻撃者の特定内容を検索する新たな攻撃シナリオについて検討する。
これらのコンテンツは、攻撃者によって検索コーパスに注入され、ヘイトスピーチやスパムのような有害なテキストを含むことができる。
モデル重みに頼り、顕著で不自然な出力を生成する従来の手法とは異なり、文法エラーによって引き起こされる隠れたバックドア攻撃を提案する。
論文 参考訳(メタデータ) (2024-02-21T05:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。