論文の概要: OEP: Poisoning Self-Evolving LLM Agents via Locally Correct but Non-Transferable Experiences
- arxiv url: http://arxiv.org/abs/2605.18930v1
- Date: Mon, 18 May 2026 14:08:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.886419
- Title: OEP: Poisoning Self-Evolving LLM Agents via Locally Correct but Non-Transferable Experiences
- Title(参考訳): OEP: 局所的正確・非伝達性体験による自己進化型LDM剤の服用
- Authors: Kaixiang Wang, Jiong Lou, Zhaojiacheng Zhou, Jie Li,
- Abstract要約: 既存のエージェントメモリ攻撃は、特権アクセスまたは明示的な悪意のあるコンテンツを必要とするため、高度な安全フィルタによって検出できる。
反射剤は、特に重大だがもっともらしい仮説的結果と組み合わせた場合、このようなクリーンな経験に弱いことが判明した。
本報告では,システムプロンプトやメモリデータベースを直接制御する必要のないブラックボックス攻撃であるOEP(Obsessive Experience Poisoning)を導入する。
- 参考スコア(独自算出の注目度): 5.4775608854724345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Memory-augmented large language model (LLM) agents use iterative reflection and self-evolution to solve complex tasks, but these mechanisms introduce security risks. Existing agentic memory attacks require privileged access or explicit malicious content, making them detectable by advanced safety filters. This leaves a subtler attack surface underexplored: whether adversaries can induce agent to generate experiences that appear locally correct and semantically plausible yet induce harmful generalization during reflection. We find that reflective agents are vulnerable to such clean experiences, especially when paired with severe but plausible hypothetical consequences. Based on this observation, we introduce Obsessive Experience Poisoning (OEP), a low-privilege black-box attack requiring no direct control over the system prompt or memory database. OEP constructs adversarial clean edge-cases that combine locally correct solutions, non-transferable methods, and severe consequences, biasing reflection toward risk-averse rule formation. During memory consolidation, agents may over-trust self-generated reflections and distill localized experiences into high-priority but over-generalized rules, causing downstream failures. Evaluations across three domains show that OEP achieves ASR above 50\% with GPT-4o agents, and outperforms existing attacks under LLM auditing defense.
- Abstract(参考訳): メモリ拡張大型言語モデル(LLM)エージェントは、複雑なタスクを解決するために反復的リフレクションと自己進化を用いるが、これらのメカニズムはセキュリティリスクを引き起こす。
既存のエージェントメモリ攻撃は、特権アクセスまたは明示的な悪意のあるコンテンツを必要とするため、高度な安全フィルタによって検出できる。
敵がエージェントを誘導して、局所的に正し、意味的に妥当に見えるが、反射中に有害な一般化を誘導できるかどうかという、より微妙な攻撃面を残している。
反射剤は、特に重大だがもっともらしい仮説的結果と組み合わせた場合、このようなクリーンな経験に弱いことが判明した。
本報告では,システムプロンプトやメモリデータベースを直接制御する必要のないブラックボックス攻撃であるOEP(Obsessive Experience Poisoning)を導入する。
OEPは、局所的正解、非伝達可能な方法、重大な結果を組み合わせて、リスク-逆ルール形成に対する反射をバイアスする対向的クリーンエッジケースを構築している。
メモリ統合の間、エージェントは自己生成の反射を過度に信頼し、局所化された経験を高優先度だが過度に一般化された規則に蒸留し、下流の障害を引き起こす。
3つの領域で評価したところ、OPPは GPT-4o エージェントで 50 % 以上の ASR を達成し、LLM 監査防御下での既存の攻撃よりも優れていた。
関連論文リスト
- Prompt-Unknown Promotion Attacks against LLM-based Sequential Recommender Systems [51.504307822017985]
大規模言語モデルを用いたシーケンシャルレコメンデータシステム(LLM-SRS)は,最近顕著な性能を示した。
本稿では, LLM-SRSにおけるアイテムプロモーション攻撃について, 攻撃者に対してシステムプロンプトと被害者モデルの両方が未知な状況下で, より現実的な状況下で検討する。
論文 参考訳(メタデータ) (2026-04-26T10:09:26Z) - Your Agent is More Brittle Than You Think: Uncovering Indirect Injection Vulnerabilities in Agentic LLMs [32.38053469964495]
システム間インタラクションを含む拡張されたアクションスペースは、深刻なセキュリティ上の問題を引き起こす。
悪意のある命令をサードパーティのコンテンツ内に隠蔽するIPIは、データ流出などの不正なアクションをトリガーする。
9個のLPMバックボーンにまたがる4つの高度なIPI攻撃ベクトルに対する6つの防御戦略を評価した。
論文 参考訳(メタデータ) (2026-04-04T21:27:04Z) - HomeGuard: VLM-based Embodied Safeguard for Identifying Contextual Risk in Household Task [42.665798473119516]
CG-CoT(Context-Guided Chain-of-Thought)を特徴とするアーキテクチャ非依存型セーフガードを提案する。
CG-CoTは、リスクアセスメントをアクティブな知覚に分解し、相互作用対象や関連する空間近傍への注意を順次固定する。
実験により、我々のモデルであるHomeGuardは安全性を大幅に向上し、ベースモデルと比較してリスクマッチ率を30%以上改善することが示された。
論文 参考訳(メタデータ) (2026-03-15T13:09:43Z) - Confundo: Learning to Generate Robust Poison for Practical RAG Systems [19.77771071590713]
Confundoは、大きな言語モデルを毒の発生源として微調整し、高い有効性、堅牢性、およびステルス性を達成するための学習・博学のフレームワークである。
Confundoは、データセットとRAG設定をまたいで、幅広い目的に構築されたアタックを一貫して上回っていることを示す。
また,RAGシステムへの不正な組み込みからWebコンテンツをスクレイピングによって保護する防衛的ユースケースも提示する。
論文 参考訳(メタデータ) (2026-02-06T11:19:49Z) - Visual Backdoor Attacks on MLLM Embodied Decision Making via Contrastive Trigger Learning [89.1856483797116]
MLLMをベースとした組込みエージェントに視覚的バックドアを注入する最初のフレームワークであるBEATを紹介する。
テキストトリガーとは異なり、オブジェクトトリガーは視点や照明の幅が広いため、確実に移植することは困難である。
BEATは攻撃の成功率を最大80%まで達成し、強い良識のあるタスクパフォーマンスを維持します。
論文 参考訳(メタデータ) (2025-10-31T16:50:49Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Towards More Robust Retrieval-Augmented Generation: Evaluating RAG Under Adversarial Poisoning Attacks [45.07581174558107]
Retrieval-Augmented Generation (RAG) システムは幻覚を緩和するための有望な解決策として登場した。
RAGシステムは、検索コーパスに注入された悪意のある通路が、モデルに誤った結果をもたらす可能性がある、敵の毒殺攻撃に対して脆弱である。
本稿では、RAGシステムがこのような攻撃下でどのように振る舞うか、その堅牢性がどのように改善されるかについて、厳密に制御された実証研究を示す。
論文 参考訳(メタデータ) (2024-12-21T17:31:52Z) - Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation [4.241100280846233]
大規模言語モデル(LLM)を駆使したAIエージェントは、シームレスで自然な、コンテキスト対応のコミュニケーションを可能にすることによって、人間とコンピュータのインタラクションを変革した。
本稿では,AIエージェント内のLLMコアを標的とした敵攻撃という,重大な脆弱性について検討する。
論文 参考訳(メタデータ) (2024-12-05T18:38:30Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。