論文の概要: RouteGuard: Internal-Signal Detection of Skill Poisoning in LLM Agents
- arxiv url: http://arxiv.org/abs/2604.22888v1
- Date: Fri, 24 Apr 2026 09:07:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.032615
- Title: RouteGuard: Internal-Signal Detection of Skill Poisoning in LLM Agents
- Title(参考訳): RouteGuard: LLMエージェントにおけるスキル中毒の信号内部検出
- Authors: Wenjie Xiao, Xuehai Tang, Biyu Zhou, Songlin Hu, Jizhong Han,
- Abstract要約: 本研究は, プレエグゼクティブ・スキル・ポゾン検出について検討し, 熟練中毒が内部構造, 注意ヒジャックを誘導することを示す。
我々は、応答条件の注意と隠れ状態のアライメントを組み合わせた冷凍バックボーン検出器であるRouteGuardを提案する。
- 参考スコア(独自算出の注目度): 26.708117345044325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agent skills introduce a new and more severe form of indirect injection for LLM agents: unlike traditional indirect prompt injection, attackers can hide malicious instructions inside a dense, action-oriented skill that already functions as a legitimate instruction source. We study pre-execution skill-poison detection and show that successful skill poisoning induces a structured internal effect, attention hijacking, in which response-time attention shifts from trusted context to malicious skill spans and drives harmful behavior. Motivated by this mechanism, we propose RouteGuard, a frozen-backbone detector that combines response-conditioned attention and hidden-state alignment through reliability-gated late fusion. Across both real and synthetic open-source skill benchmarks, RouteGuard is consistently the strongest or most robust detector; on the critical Skill-Inject channel slice, it reaches 0.8834 F1 and recovers 90.51% of description attacks missed by lexical screening, showing that defending against skill poisoning requires internal-signal detection rather than text-only filtering
- Abstract(参考訳): エージェントスキルは、LLMエージェントに対して、新たなより厳しい間接的インジェクションを導入する。従来の間接的インジェクションとは異なり、攻撃者は、すでに正当なインストラクションソースとして機能している、密集したアクション指向のスキルの中に悪意のある命令を隠すことができる。
本研究は, プレ実行スキル・ポゾン検出について検討し, 熟練中毒が内部構造的効果, 注意ハイジャックを誘導し, 応答時間注意が信頼された状況から悪質なスキルの範囲へと変化し, 有害な行動を引き起こすことを示す。
この機構により, 応答条件の注意と隠れ状態のアライメントを組み合わせた冷凍バックボーン検出器であるRouteGuardを提案する。
重要なSkill-Injectチャネルスライスでは、0.8834 F1に達し、語彙スクリーニングで見逃された記述攻撃の90.51%を回復し、スキル中毒に対する防御にはテキストのみのフィルタリングではなく、内部信号検出が必要であることを示した。
関連論文リスト
- AdversarialCoT: Single-Document Retrieval Poisoning for LLM Reasoning [115.3243260783674]
Retrieval-augmented Generation (RAG) は、外部文書を取得することにより、大きな言語モデル(LLM)推論を強化する。
攻撃者が悪意のあるコンテンツを検索コーパスに注入するRAGにおける知識ベース中毒攻撃について検討した。
AdversarialCoTは、コーパス内の1つのドキュメントだけを毒化するクエリ固有の攻撃である。
論文 参考訳(メタデータ) (2026-04-14T02:10:23Z) - SkillAttack: Automated Red Teaming of Agent Skills through Attack Path Refinement [66.44008181092832]
LLMベースのエージェントシステムは、その能力を拡張するためにオープンレジストリからのエージェントスキルにますます依存している。
SkillAttackは、敵のプロンプトを通じて、スキル脆弱性の脆弱性を検証できるフレームワークである。
論文 参考訳(メタデータ) (2026-04-05T06:25:11Z) - Skill-Inject: Measuring Agent Vulnerability to Skill File Attacks [27.120130204872325]
SkillInjectは、広く使われているLLMエージェントの、スキルファイルによるインジェクションに対する感受性を評価するベンチマークである。
SkillInjectには、明らかに悪意のあるインジェクションから、その他の正当な命令に隠された微妙なコンテキスト依存的なアタックまで、202のインジェクションタスクペアが含まれている。
以上の結果から,今日のエージェントは,フロンティアモデルによる攻撃成功率の最大80%に対して,非常に脆弱であることが示唆された。
論文 参考訳(メタデータ) (2026-02-23T18:59:27Z) - SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Exploring Backdoor Attack and Defense for LLM-empowered Recommendations [15.098844020816552]
本稿では,RecSys(BadRec)に対するバックドアインジェクション・ポジショニング(Backdoor Injection Poisoning)と呼ばれる新たな攻撃フレームワークを提案する。
BadRecはアイテムのタイトルをトリガーで混乱させ、いくつかの偽のユーザーを使ってこれらのアイテムと対話し、トレーニングセットを効果的に毒化し、RecSysにバックドアを注入する。
我々は,このようなセキュリティの脅威を軽減するため,ポゾン・スキャンナー(P-Scanner)と呼ばれるユニバーサル・ディフェンス戦略を提案する。
論文 参考訳(メタデータ) (2025-04-15T13:37:38Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。