論文の概要: Causality Laundering: Denial-Feedback Leakage in Tool-Calling LLM Agents
- arxiv url: http://arxiv.org/abs/2604.04035v1
- Date: Sun, 05 Apr 2026 09:28:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.884362
- Title: Causality Laundering: Denial-Feedback Leakage in Tool-Calling LLM Agents
- Title(参考訳): Causality Laundering: 工具担持LDM剤のDenial-Feedback Leakage
- Authors: Mohammad Hossein Chinaei,
- Abstract要約: LLMエージェントは、プライベートデータを読み、外部サービスを呼び出し、現実世界のアクションをトリガーし、ツール実行時にセキュリティ問題を引き起こすことができる。
Agentic Reference Monitor(ARM)は、ツール呼び出し、返却データ、フィールドレベルの証明、拒否されたアクションに関する前処理グラフを参照することによって、すべてのツール呼び出しを仲介するランタイム実行層である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-calling LLM agents can read private data, invoke external services, and trigger real-world actions, creating a security problem at the point of tool execution. We identify a denial-feedback leakage pattern, which we term causality laundering, in which an adversary probes a protected action, learns from the denial outcome, and exfiltrates the inferred information through a later seemingly benign tool call. This attack is not captured by flat provenance tracking alone because the leaked information arises from causal influence of the denied action, not direct data flow. We present the Agentic Reference Monitor (ARM), a runtime enforcement layer that mediates every tool invocation by consulting a provenance graph over tool calls, returned data, field-level provenance, and denied actions. ARM propagates trust through an integrity lattice and augments the graph with counterfactual edges from denied-action nodes, enabling enforcement over both transitive data dependencies and denial-induced causal influence. In a controlled evaluation on three representative attack scenarios, ARM blocks causality laundering, transitive taint propagation, and mixed-provenance field misuse that a flat provenance baseline misses, while adding sub-millisecond policy evaluation overhead. These results suggest that denial-aware causal provenance is a useful abstraction for securing tool-calling agent systems.
- Abstract(参考訳): ツール呼び出し LLMエージェントは、プライベートデータを読み、外部サービスを呼び出し、現実世界のアクションをトリガーし、ツール実行時にセキュリティ問題を生成することができる。
そこで我々は,敵が保護された行為を探索し,否定的な結果から学習し,後述のツールコールを通じて推測された情報を抽出する因果性洗浄(casality laundering)というデニアルフィードバックリークパターンを同定する。
この攻撃は、直接データフローではなく、否定されたアクションの因果的影響から漏洩した情報が生じるため、平坦な前兆追跡だけでは捕捉されない。
Agentic Reference Monitor(ARM)は、ツール呼び出し、返却データ、フィールドレベルの証明、拒否されたアクションに関する前処理グラフを参照することによって、すべてのツール呼び出しを仲介するランタイム実行層である。
ARMは整合性格子を通じて信頼を伝播し、否定されたアクションノードからの反ファクトエッジでグラフを拡張し、推移的なデータ依存と否定による因果的影響の両方を強制する。
3つの代表的な攻撃シナリオに対する制御された評価では、ARMは因果的な洗浄、過渡的な汚染の伝播、およびフラットな前駆体ベースラインが見逃すような混合プロファイナンスフィールドの誤用をブロックし、ミリ秒以下のポリシー評価のオーバーヘッドを追加する。
以上の結果から,ドナール認識による因果証明は,ツールコールエージェントシステムの確保に有用な抽象化であることが示唆された。
関連論文リスト
- Agentic AI as a Cybersecurity Attack Surface: Threats, Exploits, and Defenses in Runtime Supply Chains [7.8562769948743965]
大規模言語モデル(LLM)上に構築されたエージェントシステムは、テキスト生成を超えて情報を自律的に取得し、ツールを呼び出す。
このランタイム実行モデルは、アタックサーフェスをビルド時のアーティファクトから推論時の依存性に変更し、信頼できないデータと確率論的能力解決を通じて操作するエージェントを公開します。
我々はこれらのリスクを統合ランタイムフレームワーク内で体系化し、脅威をデータサプライチェーン攻撃(過渡的コンテキスト注入と永続的メモリ中毒)に分類する。
また,ウイルスエージェントループは,コードレベルの欠陥を生かさずに自己増殖するワームのベクターとして機能する。
論文 参考訳(メタデータ) (2026-02-23T06:57:57Z) - CausalArmor: Efficient Indirect Prompt Injection Guardrails via Causal Attribution [49.689452243966315]
ツールコール機能を備えたAIエージェントは、IPI(Indirect Prompt Injection)攻撃の影響を受けやすい。
本稿では,選択防衛フレームワークCausalArmorを提案する。
AgentDojoとDoomArenaの実験は、CausalArmorが攻撃的な防御のセキュリティと一致することを示した。
論文 参考訳(メタデータ) (2026-02-08T11:34:08Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Are Your Agents Upward Deceivers? [73.1073084327614]
大規模言語モデル(LLM)ベースのエージェントは、ユーザのためにタスクを実行する自律的な従属者として、ますます使われています。
これは、人間の組織の個人がどのように上官に嘘をついて良いイメージを作り出したり、罰を免れるかのような、詐欺にも関与するかどうかという問題を提起する。
本研究では,環境制約に直面するエージェントが障害を隠蔽し,報告なしに要求されない動作を行う現象であるエージェント上行錯誤を観察・定義する。
論文 参考訳(メタデータ) (2025-12-04T14:47:05Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - IPIGuard: A Novel Tool Dependency Graph-Based Defense Against Indirect Prompt Injection in LLM Agents [33.775221377823925]
大規模言語モデル(LLM)エージェントは現実世界のアプリケーションに広くデプロイされており、複雑なタスクのために外部データを検索し操作するためのツールを活用している。
信頼できないデータソースと対話する場合、ツールレスポンスには、エージェントの動作に秘密裏に影響を与え、悪意のある結果をもたらすインジェクションが含まれている可能性がある。
我々はIPIGuardと呼ばれる新しい防御タスク実行パラダイムを提案し、ソースにおける悪意あるツール呼び出しを防止する。
論文 参考訳(メタデータ) (2025-08-21T07:08:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。