Fugu-MT 論文翻訳(概要): ICON: Indirect Prompt Injection Defense for Agents based on Inference-Time Correction

論文の概要: ICON: Indirect Prompt Injection Defense for Agents based on Inference-Time Correction

arxiv url: http://arxiv.org/abs/2602.20708v1
Date: Tue, 24 Feb 2026 09:13:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.688107
Title: ICON: Indirect Prompt Injection Defense for Agents based on Inference-Time Correction
Title（参考訳）: ICON:推論時間補正に基づくエージェントの間接プロンプト注入防御
Authors: Che Wang, Fuyao Zhang, Jiaming Zhang, Ziqi Zhang, Yinghui Wang, Longtao Huang, Jianbo Gao, Zhong Chen, Wei Yang Bryan Lim,
Abstract要約: ICONは、タスクの連続性を維持しながら攻撃を中和する、調査と軽減のためのフレームワークである。 ICONは競争力のある0.4%のASRを達成し、商業グレード検出器と一致し、50%以上のタスクユーティリティーゲインを得る。
参考スコア（独自算出の注目度）: 24.416258744287166
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large Language Model (LLM) agents are susceptible to Indirect Prompt Injection (IPI) attacks, where malicious instructions in retrieved content hijack the agent's execution. Existing defenses typically rely on strict filtering or refusal mechanisms, which suffer from a critical limitation: over-refusal, prematurely terminating valid agentic workflows. We propose ICON, a probing-to-mitigation framework that neutralizes attacks while preserving task continuity. Our key insight is that IPI attacks leave distinct over-focusing signatures in the latent space. We introduce a Latent Space Trace Prober to detect attacks based on high intensity scores. Subsequently, a Mitigating Rectifier performs surgical attention steering that selectively manipulate adversarial query key dependencies while amplifying task relevant elements to restore the LLM's functional trajectory. Extensive evaluations on multiple backbones show that ICON achieves a competitive 0.4% ASR, matching commercial grade detectors, while yielding a over 50% task utility gain. Furthermore, ICON demonstrates robust Out of Distribution(OOD) generalization and extends effectively to multi-modal agents, establishing a superior balance between security and efficiency.
Abstract（参考訳）: LLM(Large Language Model)エージェントは間接プロンプトインジェクション(IPI)攻撃の影響を受けやすいため、検索されたコンテンツの悪意ある命令がエージェントの実行をハイジャックする。既存の防御は、典型的には厳格なフィルタリングや拒絶のメカニズムに依存しており、それは過度な拒絶、早期に有効なエージェントワークフローを終了させるという重大な制限に悩まされている。我々は,タスク継続性を維持しながら攻撃を中和する探索緩和フレームワークICONを提案する。我々の重要な洞察は、IPI攻撃は潜伏する空間に明確な過度なサインを残しているということだ。我々は、高強度のスコアに基づいて攻撃を検出するために、ラテントスペーストレースプローブを導入する。その後、Mitigating Rectifierは、LLMの機能的軌道を復元するタスク関連要素を増幅しながら、対向的なクエリキー依存を選択的に操作する外科的注意ステアリングを行う。複数のバックボーンの広範囲な評価は、ICONが競争力のある0.4%のASRを達成し、商業グレード検出器と一致し、50%以上のタスクユーティリティーゲインが得られることを示している。さらに、ICONはロバストなOut of Distribution(OOD)の一般化を実証し、マルチモーダルエージェントに効果的に拡張し、セキュリティと効率の優れたバランスを確立する。

関連論文リスト

Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs [0.0]
オープンウェイト大規模言語モデル(LLM)はエージェントAIを民主化しているが、微調整されたウェイトは頻繁に共有され、リーダーボードのパフォーマンスを超えた限られた精査で採用されている。これにより、サードパーティモデルが強力な行動保証なしで組み込まれるリスクが生じる。有毒なモデルでは、良質なタスクに対して最先端のパフォーマンスを維持し、採用にインセンティブを与えていることを示す。
論文参考訳（メタデータ） (2026-03-02T22:01:08Z)
AgentSentry: Mitigating Indirect Prompt Injection in LLM Agents via Temporal Causal Diagnostics and Context Purification [25.817251923574286]
大規模言語モデル(LLM)エージェントのための新しい推論時間検出・緩和フレームワークを提案する。 AgentSentryは、時間的因果的テイクオーバーとしてマルチターンIPIをモデル化する最初の推論時防御である。我々は, textscAgentDojo ベンチマークにおいて, 4つのタスクスイート, 3つの IPI 攻撃ファミリー, 複数のブラックボックス LLM に対する AgentSentry の評価を行った。
論文参考訳（メタデータ） (2026-02-26T07:59:10Z)
CausalArmor: Efficient Indirect Prompt Injection Guardrails via Causal Attribution [49.689452243966315]
ツールコール機能を備えたAIエージェントは、IPI(Indirect Prompt Injection)攻撃の影響を受けやすい。本稿では,選択防衛フレームワークCausalArmorを提案する。 AgentDojoとDoomArenaの実験は、CausalArmorが攻撃的な防御のセキュリティと一致することを示した。
論文参考訳（メタデータ） (2026-02-08T11:34:08Z)
Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive Screening [23.066685616914807]
効果的なエージェントセキュリティは、アーキテクチャ上の分離や強制よりも、本質的で選択的であるべきだ、と我々は主張する。我々はスパイダーセンス・フレームワークを提案する。スパイダーセンス・フレームワークは、エージェントが潜伏警戒を維持し、リスク認識によってのみ防御をトリガーすることができる。スパイダーセンスは、最低攻撃成功率(ASR)と偽陽性率(FPR)を達成して、競争力または優れた防御性能を達成する
論文参考訳（メタデータ） (2026-02-05T07:11:05Z)
ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。 ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文参考訳（メタデータ） (2026-01-15T08:23:38Z)
Towards Efficient Agents: A Co-Design of Inference Architecture and System [66.59916327634639]
本稿では,エージェントアクセラレーションのための統合フレームワークであるAgentInferを提案する。問題をAgentCollab、AgentSched、AgentSAM、AgentCompressの4つの相乗的コンポーネントに分解する。 BrowseComp-zhとDeepDiverベンチマークの実験では、これらの手法の相乗的コラボレーションを通じて、AgentInferは非効率なトークン消費を50%以上削減することを示した。
論文参考訳（メタデータ） (2025-12-20T12:06:13Z)
Cognitive Control Architecture (CCA): A Lifecycle Supervision Framework for Robustly Aligned AI Agents [1.014002853673217]
LLMエージェントはIPI(Indirect Prompt Injection)攻撃に対して脆弱である。 IPIは外部情報ソースを汚染することでハイジャックエージェントの動作を攻撃している。本稿では,全ライフサイクルの認知管理を実現するための総合的な枠組みである認知制御アーキテクチャ(CCA)を提案する。
論文参考訳（メタデータ） (2025-12-07T08:11:19Z)
Interact-RAG: Reason and Interact with the Corpus, Beyond Black-Box Retrieval [49.85856484781787]
本稿では,ILMエージェントを検索プロセスのアクティブマニピュレータに高める新しいパラダイムであるInteract-RAGを紹介する。我々は、ゼロショット実行と相互作用軌跡の合成を可能にする推論強化ワークフローを開発する。 6つのベンチマーク実験により、Interact-RAGは他の高度な手法よりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2025-10-31T15:48:43Z)
FocusAgent: Simple Yet Effective Ways of Trimming the Large Context of Web Agents [76.12500510390439]
大規模言語モデル(LLM)を利用したWebエージェントは、ユーザの目標を達成するために、長いWebページの観察を処理しなければならない。既存のプルーニング戦略は、関連するコンテンツを捨てるか、無関係なコンテキストを保持するかのいずれかであり、最適以下の行動予測につながる。 FocusAgentは軽量LCMレトリバーを利用してアクセシビリティツリー(AxTree)観測から最も関連性の高い線を抽出するシンプルで効果的なアプローチである。
論文参考訳（メタデータ） (2025-10-03T17:41:30Z)
MELON: Provable Defense Against Indirect Prompt Injection Attacks in AI Agents [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱であり、ツール検索情報に埋め込まれた悪意のあるタスクはエージェントをリダイレクトして不正なアクションを取ることができる。マスク機能によって修正されたマスク付きユーザでエージェントの軌道を再実行することで攻撃を検知する新しいIPIディフェンスであるMELONを提案する。
論文参考訳（メタデータ） (2025-02-07T18:57:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。