論文の概要: AI Agents May Always Fall for Prompt Injections
- arxiv url: http://arxiv.org/abs/2605.17634v1
- Date: Sun, 17 May 2026 19:55:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.287665
- Title: AI Agents May Always Fall for Prompt Injections
- Title(参考訳): AIエージェント、常にプロンプト注入に失敗する可能性がある
- Authors: Sahar Abdelnabi, Eugene Bagdasarian,
- Abstract要約: デプロイされたAIエージェントにおいて、プロンプトインジェクションが最も重大な脆弱性であることを示す。
我々は、コンテキスト整合性(CI)のレンズを通して、情報フローを文脈規範に準拠させるプライバシー理論を通じて、プロンプトインジェクションをリキャストする。
- 参考スコア(独自算出の注目度): 13.730410056303866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt injection is the most critical vulnerability in deployed AI agents. Despite recent progress, we show that the prevailing defense paradigm (data-instruction separation) both fails to detect attacks that operate through contextual manipulation and degrades contextually appropriate behavior. We then recast prompt injection via the lens of Contextual Integrity (CI), a privacy theory that judges information flow compliance with contextual norms. This explains types of attacks that current defenses attempt to patch and predict advanced ones future agents will face. We develop unique benign and attack scenarios that force an agent to violate the norms by (1) misrepresenting the flow, (2) manipulating norms, or (3) mixing multiple flows. This reframing suggests an impossibility result: an adversary can always construct a context under which a blocked flow appears legitimate, or a defender who tightens norms will block genuinely legitimate flows. Our findings suggest that current research addresses a shrinking fraction of future attack surfaces. Instead, through CI, we offer a principled framework for evaluating context-sensitive failures, and designing CI-aware alignment for the frontier autonomous agents.
- Abstract(参考訳): プロンプトインジェクションは、デプロイされたAIエージェントで最も重要な脆弱性である。
近年の進歩にも拘わらず、一般的な防衛パラダイム(データ命令分離)は、文脈操作による攻撃の検出に失敗し、文脈的に適切な振る舞いを低下させることが示されている。
次に、コンテキスト整合性(CI)のレンズを介してプロンプトインジェクションをリキャストします。
これは、現在の守備隊が将来のエージェントが直面する先進的な攻撃のタイプを説明します。
我々は,(1)フローの誤表現,(2)ノルムの操作,(3)複数のフローの混合などによって,エージェントに規範違反を強いる独自の良性・攻撃シナリオを開発する。
敵は常にブロックされたフローが正当であるようなコンテキストを構築したり、あるいはノルムを締め付けるディフェンダーが真の正当なフローをブロックしたりする。
以上の結果から,今後の攻撃面の縮小に対処できる可能性が示唆された。
代わりに、CIを通じて、コンテキストに敏感な障害を評価し、フロンティア自律エージェントのためのCI対応アライメントを設計するための、原則化されたフレームワークを提供します。
関連論文リスト
- ARGUS: Defending LLM Agents Against Context-Aware Prompt Injection [28.414099578635373]
AgentLureは、コンテキスト依存タスクとコンテキスト認識インジェクション攻撃をキャプチャするベンチマークである。
この制限に対処するため,我々は,LDMエージェントの事前判定監査を実施する防衛機構であるARGUSを提案する。
論文 参考訳(メタデータ) (2026-05-05T05:37:00Z) - How Adversarial Environments Mislead Agentic AI? [8.386898504061415]
ツール統合エージェントは、外部ツールが実際のアウトプットを基盤とする前提でデプロイされる。しかしながら、この非常に依存度が重要な攻撃面を生み出している。
エージェントは、懐疑主義ではなく、パフォーマンスのために評価される。
我々は、この脆弱性を、敵対者が騙されたエージェントにツール出力を妥協する脅威モデルであるAEI(Adversarial Environmental Injection)として定式化する。
論文 参考訳(メタデータ) (2026-04-20T21:53:39Z) - Making MLLMs Blind: Adversarial Smuggling Attacks in MLLM Content Moderation [54.38271718421492]
敵の密輸攻撃は人間とAIの能力ギャップを悪用する。
有害なコンテンツを人間の読みやすい視覚形式にエンコードする。
我々は緩和戦略の予備的な調査を行う。
論文 参考訳(メタデータ) (2026-04-08T11:13:16Z) - Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs [0.0]
オープンウェイト大規模言語モデル(LLM)はエージェントAIを民主化しているが、微調整されたウェイトは頻繁に共有され、リーダーボードのパフォーマンスを超えた限られた精査で採用されている。
これにより、サードパーティモデルが強力な行動保証なしで組み込まれるリスクが生じる。
有毒なモデルでは、良質なタスクに対して最先端のパフォーマンスを維持し、採用にインセンティブを与えていることを示す。
論文 参考訳(メタデータ) (2026-03-02T22:01:08Z) - Defenses Against Prompt Attacks Learn Surface Heuristics [40.392588465939106]
大規模言語モデル(LLM)は、セキュリティに敏感なアプリケーションにますますデプロイされている。
LLMは、ユーザクエリや検索されたコンテンツに逆命令が現れるとき、意図したロジックをオーバーライドすることができる。
最近の防衛は、良心と悪意のあるラベルによる監督された微調整に依存している。
論文 参考訳(メタデータ) (2026-01-12T04:12:48Z) - SCOUT: A Defense Against Data Poisoning Attacks in Fine-Tuned Language Models [11.304852987259041]
本稿では,ドメイン固有の知識と意味的妥当性を活かした,コンテキスト認識型攻撃シナリオを3つ紹介する。
textbfSCOUT (Saliency-based Classification of Untrusted Tokens) はトークンレベルの塩分分析によりバックドアトリガを識別する新しい防御フレームワークである。
論文 参考訳(メタデータ) (2025-12-10T17:25:55Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。
主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。
本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文 参考訳(メタデータ) (2025-01-30T18:02:15Z) - Zero-Query Transfer Attacks on Context-Aware Object Detectors [95.18656036716972]
敵は、ディープニューラルネットワークが誤った分類結果を生成するような摂動画像を攻撃する。
自然の多目的シーンに対する敵対的攻撃を防御するための有望なアプローチは、文脈整合性チェックを課すことである。
本稿では,コンテキスト整合性チェックを回避可能な,コンテキスト整合性攻撃を生成するための最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-29T04:33:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。