論文の概要: No Attack Required: Semantic Fuzzing for Specification Violations in Agent Skills
- arxiv url: http://arxiv.org/abs/2605.13044v1
- Date: Wed, 13 May 2026 05:57:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.83635
- Title: No Attack Required: Semantic Fuzzing for Specification Violations in Agent Skills
- Title(参考訳): 攻撃は不要: エージェントスキルの仕様違反に対するセマンティックファジィング
- Authors: Ying Li, Hongbo Wen, Yanju Chen, Hanzhi Liu, Yuan Tian, Yu Feng,
- Abstract要約: LLMを利用するエージェントは、文書を静かに削除したり、証明書をリークしたり、定期的なユーザリクエストで資金を転送したりできる。
私たちはこれらの仕様違反を次のように呼んでいます。 良心的な入力は、自身の仕様で自然言語のガードレールを破るスキルを引き起こします。
本稿では,エージェントスキルの仕様違反を自動的に検出する,目標指向のセマンティックファジリングフレームワークであるSefzを紹介する。
- 参考スコア(独自算出の注目度): 11.392387914691824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-powered agents can silently delete documents, leak credentials, or transfer funds on a routine user request, not because the agent was attacked, but because the skill it invoked broke its own declared safety rules. We call these specification violations: benign inputs cause a skill to breach the natural-language guardrails in its own specification, typically because the guardrail's semantics are undefined for autonomous execution, or because the implementation silently ignores the documented constraint. These violations are invisible to static analyzers, traditional fuzzers, and prompt-injection defenses alike, yet they undermine the very contract a user trusts when installing a skill. We present Sefz, a goal-directed semantic fuzzing framework that automatically discovers specification violations in agent skills. Sefz translates each guardrail into a reachability goal over an annotated execution trace, reducing violation checking to a deterministic graph query. An LLM-based mutator generates benign inputs whose traces progressively approach the violation patterns, guided by a multi-armed bandit that uses goal-proximity as its reward signal. On 402 real-world skills from the largest public agent-skill marketplace, Sefz finds specification violations in 120 (29.9%), including 26 previously unknown exploitable guardrail violations in deployed skills. Six recurring specification pitfalls explain the bulk of the failures, suggesting concrete principles for safer skill design.
- Abstract(参考訳): LLMで動くエージェントは、文書を静かに削除したり、証明書をリークしたり、通常のユーザーリクエストで送金したりできる。
通常、ガードレールのセマンティクスが自律的な実行のために定義されていないため、あるいは実装が文書化された制約を静かに無視するためです。
これらの違反は、静的アナライザ、従来のファジィザ、即時注入防御にも見えないが、スキルのインストール時にユーザが信頼する契約を損なう。
本稿では,エージェントスキルの仕様違反を自動的に検出する,目標指向のセマンティックファジリングフレームワークであるSefzを紹介する。
Sefzは各ガードレールをアノテーション付き実行トレース上で到達可能な目標に変換することで、決定論的グラフクエリに対する違反チェックを削減する。
LLMベースのミュータは、目標確率を報奨信号とする多腕バンディットによって導かれる、トレースが段階的に違反パターンに近づく良性入力を生成する。
最大の公共エージェントスキル市場からの402の現実世界のスキルについて、セフツは120の仕様違反(29.9%)を発見した。
6つの繰り返し発生する仕様の落とし穴は、失敗の大部分を説明し、より安全なスキル設計のための具体的な原則を示唆している。
関連論文リスト
- Secret Stealing Attacks on Local LLM Fine-Tuning through Supply-Chain Model Code Backdoors [9.503673758168693]
ローカルな微調整データセットは、APIキーや個人識別子、財務記録など、機密性の高いシークレットを常用する。
私たちは、実用的だが見過ごされたサプライチェーンベクターを使用します -- 標準アーキテクチャ定義としてキャモフラージュされたモデルコードです。
オンラインテンソルルールマッチングによる動的計算フローにおいてトークンレベルのシークレットにロックする決定論的フルチェーン機構を導入する。
論文 参考訳(メタデータ) (2026-04-30T05:03:08Z) - Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs [0.0]
オープンウェイト大規模言語モデル(LLM)はエージェントAIを民主化しているが、微調整されたウェイトは頻繁に共有され、リーダーボードのパフォーマンスを超えた限られた精査で採用されている。
これにより、サードパーティモデルが強力な行動保証なしで組み込まれるリスクが生じる。
有毒なモデルでは、良質なタスクに対して最先端のパフォーマンスを維持し、採用にインセンティブを与えていることを示す。
論文 参考訳(メタデータ) (2026-03-02T22:01:08Z) - Skill-Inject: Measuring Agent Vulnerability to Skill File Attacks [27.120130204872325]
SkillInjectは、広く使われているLLMエージェントの、スキルファイルによるインジェクションに対する感受性を評価するベンチマークである。
SkillInjectには、明らかに悪意のあるインジェクションから、その他の正当な命令に隠された微妙なコンテキスト依存的なアタックまで、202のインジェクションタスクペアが含まれている。
以上の結果から,今日のエージェントは,フロンティアモデルによる攻撃成功率の最大80%に対して,非常に脆弱であることが示唆された。
論文 参考訳(メタデータ) (2026-02-23T18:59:27Z) - Hiding in Plain Text: Detecting Concealed Jailbreaks via Activation Disentanglement [13.976796671311066]
大規模言語モデル (LLM) は、リーチでセマンティックに一貫性のあるジェイルブレイクプロンプトに対して脆弱なままである。
本稿では,LLMアクティベーションにおけるセマンティックファクタペアを推論時にアンタングリングするための自己教師型フレームワークを提案する。
次に、フレーミング表現で動作する異常検出器であるFrameShieldを提案し、モデルに依存しない検出を改善する。
論文 参考訳(メタデータ) (2026-02-23T00:11:30Z) - SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - Are Your Agents Upward Deceivers? [73.1073084327614]
大規模言語モデル(LLM)ベースのエージェントは、ユーザのためにタスクを実行する自律的な従属者として、ますます使われています。
これは、人間の組織の個人がどのように上官に嘘をついて良いイメージを作り出したり、罰を免れるかのような、詐欺にも関与するかどうかという問題を提起する。
本研究では,環境制約に直面するエージェントが障害を隠蔽し,報告なしに要求されない動作を行う現象であるエージェント上行錯誤を観察・定義する。
論文 参考訳(メタデータ) (2025-12-04T14:47:05Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - Bag of Tricks for Subverting Reasoning-based Safety Guardrails [62.139297207938036]
推論に基づくガードレールを覆い隠すジェイルブレイク手法の袋を提示する。
攻撃対象は白、グレー、ブラックボックスの設定で、無駄なテンプレート操作から完全に自動化された最適化までさまざまです。
論文 参考訳(メタデータ) (2025-10-13T16:16:44Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。