論文の概要: ObliInjection: Order-Oblivious Prompt Injection Attack to LLM Agents with Multi-source Data
- arxiv url: http://arxiv.org/abs/2512.09321v3
- Date: Mon, 15 Dec 2025 04:21:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 15:10:29.154314
- Title: ObliInjection: Order-Oblivious Prompt Injection Attack to LLM Agents with Multi-source Data
- Title(参考訳): オーブリインジェクション:マルチソースデータを用いたLDMエージェントへの秩序なプロンプトインジェクション
- Authors: Reachal Wang, Yuqi Jia, Neil Zhenqiang Gong,
- Abstract要約: Obliinjectionは、LLMの入力データを汚染して、意図したタスクではなく、アタッカー・チョーゼンタスクを完了させる。
既存のプロンプトインジェクション攻撃は、入力データ全体が攻撃者の制御下にある単一のソースから来ていると仮定するか、異なるソースからのセグメントの順序の不確実性を無視するかのいずれかである。
Obliinjectionは2つの重要な技術革新を導入している。
- 参考スコア(独自算出の注目度): 37.94746388564456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt injection attacks aim to contaminate the input data of an LLM to mislead it into completing an attacker-chosen task instead of the intended task. In many applications and agents, the input data originates from multiple sources, with each source contributing a segment of the overall input. In these multi-source scenarios, an attacker may control only a subset of the sources and contaminate the corresponding segments, but typically does not know the order in which the segments are arranged within the input. Existing prompt injection attacks either assume that the entire input data comes from a single source under the attacker's control or ignore the uncertainty in the ordering of segments from different sources. As a result, their success is limited in domains involving multi-source data. In this work, we propose ObliInjection, the first prompt injection attack targeting LLM applications and agents with multi-source input data. ObliInjection introduces two key technical innovations: the order-oblivious loss, which quantifies the likelihood that the LLM will complete the attacker-chosen task regardless of how the clean and contaminated segments are ordered; and the orderGCG algorithm, which is tailored to minimize the order-oblivious loss and optimize the contaminated segments. Comprehensive experiments across three datasets spanning diverse application domains and twelve LLMs demonstrate that ObliInjection is highly effective, even when only one out of 6-100 segments in the input data is contaminated. Our code and data are available at: https://github.com/ReachalWang/ObliInjection.
- Abstract(参考訳): プロンプトインジェクション攻撃は、LLMの入力データを汚染して、意図したタスクではなくアタッカー・チョーゼンタスクを完了させる。
多くのアプリケーションやエージェントでは、入力データは複数のソースから始まり、各ソースは全体の入力の一部に寄与する。
これらのマルチソースシナリオでは、攻撃者はソースのサブセットだけを制御し、対応するセグメントを汚染するが、通常、セグメントが入力内に配置される順序を知らない。
既存のプロンプトインジェクション攻撃は、入力データ全体が攻撃者の制御下にある単一のソースから来ていると仮定するか、異なるソースからのセグメントの順序の不確実性を無視するかのいずれかである。
その結果、その成功はマルチソースデータを含む領域に限られる。
本研究では, LLM アプリケーションとマルチソース入力データを用いたエージェントを対象とした最初のプロンプトインジェクション攻撃である Obli Injection を提案する。
Obliinjectionは、2つの重要な技術革新を紹介している。これは、LLMが、クリーンで汚染されたセグメントの順序によらず、アタッカー・チョーゼンタスクを完了させる可能性の定量化であり、オーダー・オブ・ブリビアス・ロスを最小限に抑え、汚染されたセグメントを最適化するために調整されたオーダーGCGアルゴリズムである。
多様なアプリケーションドメインと12のLCMにまたがる3つのデータセットにわたる総合的な実験は、入力データ中の6~100セグメントのうち1つだけが汚染されている場合でも、Obli注入が極めて効果的であることを示した。
私たちのコードとデータは、https://github.com/ReachalWang/Obliinjection.comで利用可能です。
関連論文リスト
- Defense Against Indirect Prompt Injection via Tool Result Parsing [5.69701430275527]
LLMエージェントは間接的なプロンプトインジェクションからエスカレートする脅威に直面している。
この脆弱性は、エージェントが物理的な環境をより直接的に制御するようになると、重大なリスクをもたらす。
そこで本稿では,LLMに対してツール解析による正確なデータを提供するとともに,注入された悪意のあるコードを効果的にフィルタリングする手法を提案する。
論文 参考訳(メタデータ) (2026-01-08T10:21:56Z) - Better Privilege Separation for Agents by Restricting Data Types [6.028799607869068]
大規模言語モデル(LLM)のタイプ指向特権分離を提案する。
我々は、信頼できないコンテンツをキュレートされたデータ型に変換することによって、LDMがサードパーティのデータと対話する能力を制限する。
生文字列とは異なり、各データ型はスコープとコンテントに制限されており、プロンプトインジェクションの可能性を排除している。
論文 参考訳(メタデータ) (2025-09-30T08:20:50Z) - TopicAttack: An Indirect Prompt Injection Attack via Topic Transition [92.26240528996443]
大規模言語モデル(LLM)は間接的なインジェクション攻撃に対して脆弱である。
提案するTopicAttackは,LLMに生成した遷移プロンプトを生成し,徐々にトピックをインジェクション命令にシフトさせる。
提案手法は, インジェクトからオリジナルへのアテンション比が高く, 成功確率が高く, ベースライン法よりもはるかに高い比を達成できることがわかった。
論文 参考訳(メタデータ) (2025-07-18T06:23:31Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - DataSentinel: A Game-Theoretic Detection of Prompt Injection Attacks [87.66245688589977]
LLM統合されたアプリケーションとエージェントは、インジェクション攻撃に弱い。
検出方法は、入力が注入プロンプトによって汚染されているかどうかを判定することを目的とする。
本研究では,迅速なインジェクション攻撃を検出するゲーム理論手法であるDataSentinelを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:26:21Z) - Universal and Context-Independent Triggers for Precise Control of LLM Outputs [6.390542864765991]
大規模言語モデル(LLM)は、自動コンテンツ生成や重要な意思決定システムといったアプリケーションで広く採用されている。
勾配に基づくホワイトボックス攻撃技術の最近の進歩は、ジェイルブレイクやシステムプロンプトリークといったタスクにおいて有望であることを示している。
そこで本研究では,このようなトリガを効果的に発見し,攻撃の有効性を評価する手法を提案する。
論文 参考訳(メタデータ) (2024-11-22T05:17:18Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Defending Against Indirect Prompt Injection Attacks With Spotlighting [11.127479817618692]
一般的なアプリケーションでは、複数の入力は1つのテキストストリームにまとめることで処理できる。
間接的なプロンプトインジェクション攻撃は、ユーザコマンドと共に処理されている信頼できないデータに、敵命令を埋め込むことによって、この脆弱性を利用する。
我々は,複数の入力源を識別するLLMの能力を向上させるために,迅速なエンジニアリング技術群であるスポットライティングを紹介した。
論文 参考訳(メタデータ) (2024-03-20T15:26:23Z) - Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。
我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。
また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文 参考訳(メタデータ) (2023-11-02T06:13:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。