論文の概要: Aligning Provenance with Authorization: A Dual-Graph Defense for LLM Agents
- arxiv url: http://arxiv.org/abs/2605.26497v1
- Date: Tue, 26 May 2026 03:20:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.600437
- Title: Aligning Provenance with Authorization: A Dual-Graph Defense for LLM Agents
- Title(参考訳): LLMエージェントのためのデュアルグラフディフェンス
- Authors: Peiran Wang, Ying Li, Yuan Tian,
- Abstract要約: LLMベースのエージェントは、Eメール管理、金融トランザクション、コード実行など、ハイテイクなシナリオにますますデプロイされている。
2つの相補グラフを構成するデュアルグラフアライメント・ディフェンス・フレームワークであるAuthGraphを提案する。
AgentDojoでは、AuthGraphが攻撃成功率を40%から1%に削減し、GPT-4oでは76%のタスク完了率を維持している。
- 参考スコア(独自算出の注目度): 11.867868278947524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-based agents are increasingly deployed in high-stakes scenarios such as email management, financial transactions, and code execution, where they interact with the external world through tool calling. During execution, these agents must read external data sources (emails, webpages, files) that attackers can control; through indirect prompt injection, attackers embed malicious instructions in this data to manipulate agents into performing unauthorized operations such as transferring funds to attacker-controlled accounts. Existing defenses either perform tool-call-level value checking without tracking where parameter values originate, or analyze execution traces from a single perspective without a clean authorization baseline for comparison. We propose AuthGraph, a dual-graph alignment defense framework that constructs two complementary graphs: an injected reasoning graph that models information provenance from the actual execution trajectory (including potentially manipulated attributions), and an authorization graph derived from the user's intent in an isolated clean context that is information-theoretically impossible to be influenced by injection; a graph alignment checker then structurally compares the two graphs to detect both tool-level and parameter-source-level deviations. On AgentDojo, AuthGraph reduces the attack success rate from 40% to 1% while maintaining 76% task completion rate on GPT-4o; on AgentDyn, it reduces the attack success rate from 39% to 2% while preserving 51% utility, outperforming state-of-the-art defenses including CaMeL, DRIFT, and Progent. To our knowledge, AuthGraph is the first agent security defense to structurally compare authorization specifications against execution provenance at the parameter-source level, achieving fine-grained injection detection without sacrificing agent flexibility.
- Abstract(参考訳): LLMベースのエージェントは,Eメール管理や金融トランザクション,コード実行といった,ツールコールを通じて外部世界と対話する高度なシナリオに,ますます多くデプロイされている。
これらのエージェントは実行中、攻撃者が制御できる外部データソース(メール、ウェブページ、ファイル)を読み込まなければならない。
既存のディフェンスは、パラメータ値の発する場所をトラッキングせずにツールコールレベルの値チェックを実行するか、比較のためのクリーンな認証ベースラインなしで単一の視点から実行トレースを分析する。
本稿では,2つの相補的なグラフを構成するデュアルグラフアライメント・ディフェンス・フレームワークであるAuthGraphを提案する。実際の実行軌跡(潜在的に操作された属性を含む)から得られた情報をモデル化するインジェクション推論グラフと,インジェクションによって影響を受けない情報理論的に不可能な分離されたクリーンコンテキストにおけるユーザの意図に由来する認証グラフである。
AgentDojoでは、AuthGraphはGPT-4oで76%のタスク完了率を維持しながら攻撃成功率を40%から1%に削減し、AgentDynでは51%のユーティリティを維持しながら攻撃成功率を39%から2%に削減し、CaMeL、DRIFT、Progentといった最先端のディフェンスを上回っている。
我々の知る限り、AuthGraphは、パラメータソースレベルでの実行証明に対する認証仕様を構造的に比較する最初のエージェントセキュリティ防衛であり、エージェントの柔軟性を犠牲にすることなく、きめ細かいインジェクション検出を実現する。
関連論文リスト
- Oracle Poisoning: Corrupting Knowledge Graphs to Weaponise AI Agent Reasoning [0.9236074230806578]
Oracle Poisoningは、相手が構造化知識グラフを破損させる攻撃クラスである。
プロンプトインジェクションとは異なり、Oracle Poisoningはデータエージェントを操作します。
プロダクション4200万ノードのコード知識グラフに対する6つの攻撃シナリオを実演する。
論文 参考訳(メタデータ) (2026-05-10T23:55:13Z) - PlanGuard: Defending Agents against Indirect Prompt Injection via Planning-based Consistency Verification [1.7904458681854372]
PlanGuardは、コンテキスト分離の原則に基づいた、トレーニング不要の防御フレームワークである。
PlanGuardは攻撃を効果的に中和し、アタック成功率(ASR)を72.8%から0%に下げる。
論文 参考訳(メタデータ) (2026-04-11T09:59:46Z) - Agentproof: Static Verification of Agent Workflow Graphs [0.0]
エージェントフレームワークは、ツール使用の振る舞いを明示的なワークフローグラフとしてエンコードする傾向にある。
本稿では,4つの主要なエージェントフレームワークから統合抽象グラフモデルを自動的に抽出するAgentproofを提案する。
汎用的なモデルチェッカーとは異なり、Agentproofは手動モデリングを必要としない。
論文 参考訳(メタデータ) (2026-03-20T13:56:20Z) - SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - BackdoorAgent: A Unified Framework for Backdoor Attacks on LLM-based Agents [58.83028403414688]
大規模言語モデル(LLM)エージェントは、計画、メモリ、ツールの使用を組み合わせた多段階ワークフローを通じてタスクを実行する。
エージェントワークフローの特定のステージに注入されたバックドアトリガーは、複数の中間状態を通して持続し、下流出力に悪影響を及ぼす可能性がある。
LLMエージェントにおけるバックドア脅威を統一したエージェント中心のビューを提供するモジュールおよびステージアウェアフレームワークである textbfBackdoorAgent を提案する。
論文 参考訳(メタデータ) (2026-01-08T03:49:39Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - IPIGuard: A Novel Tool Dependency Graph-Based Defense Against Indirect Prompt Injection in LLM Agents [33.775221377823925]
大規模言語モデル(LLM)エージェントは現実世界のアプリケーションに広くデプロイされており、複雑なタスクのために外部データを検索し操作するためのツールを活用している。
信頼できないデータソースと対話する場合、ツールレスポンスには、エージェントの動作に秘密裏に影響を与え、悪意のある結果をもたらすインジェクションが含まれている可能性がある。
我々はIPIGuardと呼ばれる新しい防御タスク実行パラダイムを提案し、ソースにおける悪意あるツール呼び出しを防止する。
論文 参考訳(メタデータ) (2025-08-21T07:08:16Z) - AgentArmor: Enforcing Program Analysis on Agent Runtime Trace to Defend Against Prompt Injection [14.522205401511727]
大きな言語モデル(LLM)エージェントは、自然言語推論と外部ツールの実行を組み合わせることで、さまざまな問題を解決するための強力な新しいパラダイムを提供する。
本研究では,エージェントランタイムトレースを解析可能なセマンティクスを用いた構造化プログラムとして扱う新しい知見を提案する。
本稿では,エージェントトレースをグラフ中間表現に基づく構造化プログラム依存表現に変換するプログラム解析フレームワークであるAgentArmorを提案する。
論文 参考訳(メタデータ) (2025-08-02T07:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。