論文の概要: MAGE: Safeguarding LLM Agents against Long-Horizon Threats via Shadow Memory
- arxiv url: http://arxiv.org/abs/2605.03228v1
- Date: Mon, 04 May 2026 23:46:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.68415
- Title: MAGE: Safeguarding LLM Agents against Long-Horizon Threats via Shadow Memory
- Title(参考訳): MAGE:シャドウメモリによる長方形の脅威に対するLSMエージェントの保護
- Authors: Yuhui Wang, Tanqiu Jiang, Jiacheng Liang, Charles Fleming, Ting Wang,
- Abstract要約: 大規模言語モデル(LLM)を利用したエージェントは、複雑で現実的なタスクを実行するためにますますデプロイされる。
単一のターン設定で悪意ある目的を追求するために、拡張されたユーザエージェントと環境のインタラクションを利用する攻撃のクラスが増えている。
我々は、多岐にわたる長期的脅威に対抗するために設計された、新しい防御フレームワークであるMAGEを紹介する。
- 参考スコア(独自算出の注目度): 12.959058053467075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language model (LLM)-powered agents are increasingly deployed to perform complex, real-world tasks, they face a growing class of attacks that exploit extended user-agent-environment interactions to pursue malicious objectives improbable in single-turn settings. Such long-horizon threats pose significant risks to the safe deployment of LLM agents in critical domains. In this paper, we present MAGE (Memory As Guardrail Enforcement), a novel defensive framework designed to counter a wide range of long-horizon threats. Inspired by the "shadow stack" abstraction in systems security, MAGE maintains a dedicated, safety-focused agentic memory that distills and retains safety-critical context across the agent's full execution trajectory, leveraging this shadow memory to proactively assess the risk of pending actions prior to their execution. Extensive evaluation demonstrates that MAGE substantially outperforms existing defenses across diverse long-horizon threats in detection accuracy, achieves early-stage detection for the majority of attacks, and introduces only negligible overhead to agent utility. To our best knowledge, MAGE represents the first framework to detect and mitigate long-horizon threats using an agentic memory approach, establishing a new paradigm for this critical challenge and opening promising directions for future research.
- Abstract(参考訳): 大規模言語モデル(LLM)を利用したエージェントが複雑で現実的なタスクを実行するためにますますデプロイされるにつれて、ユーザエージェントと環境とのインタラクションを拡張して、シングルターン設定では不可能な悪意のある目的を追求する攻撃が増えている。
このような長期的脅威は、LLMエージェントを重要な領域に安全に配置する上で重大なリスクをもたらす。
本稿では,多岐にわたる長期的脅威に対処する新しい防御枠組みであるMAGE(Memory As Guardrail Enforcement)を提案する。
システムセキュリティにおける"シャドウスタック"の抽象化にインスパイアされたMAGEは、エージェントの完全な実行軌跡全体にわたって安全クリティカルなコンテキストを蒸留し保持する、専用の安全に焦点を当てたエージェントメモリを維持し、このシャドウメモリを活用して、実行前に保留中の動作のリスクを積極的に評価する。
広範囲な評価により、MAGEは検出精度において様々な長距離脅威にまたがる既存の防御を著しく上回り、攻撃の大多数を早期に検出し、エージェントユーティリティに無視可能なオーバーヘッドのみを導入している。
我々の知る限り、MAGEはエージェントメモリアプローチによる長期的脅威を検出し、緩和する最初のフレームワークであり、この重要な課題の新たなパラダイムを確立し、将来の研究に向けて有望な方向を開く。
関連論文リスト
- Your Agent is More Brittle Than You Think: Uncovering Indirect Injection Vulnerabilities in Agentic LLMs [32.38053469964495]
システム間インタラクションを含む拡張されたアクションスペースは、深刻なセキュリティ上の問題を引き起こす。
悪意のある命令をサードパーティのコンテンツ内に隠蔽するIPIは、データ流出などの不正なアクションをトリガーする。
9個のLPMバックボーンにまたがる4つの高度なIPI攻撃ベクトルに対する6つの防御戦略を評価した。
論文 参考訳(メタデータ) (2026-04-04T21:27:04Z) - AgentLAB: Benchmarking LLM Agents against Long-Horizon Attacks [10.74152341304056]
我々はAgentLABを,適応型長期攻撃に対するエージェント感受性を評価するための最初のベンチマークとして提示する。
AgentLABはインテントハイジャック、ツールチェーン、タスクインジェクション、客観的ドリフト、メモリ中毒を含む5つの新しい攻撃タイプをサポートしている。
LLMの代表的エージェントは、長期にわたる攻撃の影響を受けやすいままである。
論文 参考訳(メタデータ) (2026-02-18T21:30:20Z) - Zombie Agents: Persistent Control of Self-Evolving LLM Agents via Self-Reinforcing Injections [57.64370755825839]
セルフ進化エージェントはセッション間で内部状態を更新する。
我々はこのリスクを調査し、Zombie Agentと呼ばれる永続的な攻撃を形式化する。
我々は,攻撃者が制御するWebコンテンツを通じて間接的露光のみを使用するブラックボックス攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-17T15:28:24Z) - OMNI-LEAK: Orchestrator Multi-Agent Network Induced Data Leakage [59.3826294523924]
オーケストレータ設定として知られる,一般的なマルチエージェントパターンのセキュリティ脆弱性について検討する。
本報告では,フロンティアモデルの攻撃カテゴリに対する感受性を報告し,推論モデルと非推論モデルの両方が脆弱であることが確認された。
論文 参考訳(メタデータ) (2026-02-13T21:32:32Z) - RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic [56.38397499463889]
視覚言語モデル(VLM)を利用するエージェントは、複雑な現実世界のタスクを実行する能力がますます高まっている。
しかし、安全でない行動を引き起こす可能性のある危険な指示に弱いままである。
提案するRoboSafeは,実行可能述語ベースの安全ロジックを通じて,エージェントを具体化するためのランタイムセーフガードである。
論文 参考訳(メタデータ) (2025-12-24T15:01:26Z) - How Brittle is Agent Safety? Rethinking Agent Risk under Intent Concealment and Task Complexity [55.441602598245744]
LLM駆動エージェントの現在の安全性評価は、主に原子害に焦点を当てており、悪意のある意図が複雑なタスクで隠されたり希釈されたりする高度な脅威に対処できなかった。
このギャップを,意図隠蔽とタスク複雑性の圧力下でのエージェントの安全性の脆さを二次元的に解析することで解決する。
目的が明確になるにつれて、安全アライメントは急激かつ予測的に低下し、「複雑パラドックス」が出現する。
論文 参考訳(メタデータ) (2025-11-11T17:27:27Z) - Searching for Privacy Risks in LLM Agents via Simulation [61.229785851581504]
本稿では,プライバシクリティカルなエージェントインタラクションのシミュレーションを通じて,攻撃と防御戦略の改善を交互に行う検索ベースのフレームワークを提案する。
攻撃戦略は、直接の要求から、不正行為や同意偽造といった高度な戦術へとエスカレートする。
発見された攻撃と防御は、さまざまなシナリオやバックボーンモデルにまたがって伝達され、プライバシーに配慮したエージェントを構築するための強力な実用性を示している。
論文 参考訳(メタデータ) (2025-08-14T17:49:09Z) - DrunkAgent: Stealthy Memory Corruption in LLM-Powered Recommender Agents [31.542621203252295]
大規模言語モデル (LLM) を利用したエージェントは、リコメンデータシステム (RS) でますます使われている。
本稿では,LSMを用いたリコメンデータエージェントにおけるメモリベースの脆弱性について,初めて体系的に検討する。
我々はDrunkAgentという新しいブラックボックス攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-31T07:35:40Z) - Spot Risks Before Speaking! Unraveling Safety Attention Heads in Large Vision-Language Models [9.318094073527563]
大規模視覚言語モデル(LVLM)の内部アクティベーションは、異なる攻撃に対して悪意のあるプロンプトを識別することができる。
この固有の安全性の認識は、私たちが安全の頭と呼ぶ、まばらな注意の頭によって支配されている」。
これらの安全ヘッドを配置し、それらのアクティベーションを連結することにより、単純だが強力な悪意のあるプロンプト検出器を構築する。
論文 参考訳(メタデータ) (2025-01-03T07:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。