論文の概要: "Elementary, My Dear Watson." Detecting Malicious Skills via Neuro-Symbolic Reasoning across Heterogeneous Artifacts
- arxiv url: http://arxiv.org/abs/2603.27204v1
- Date: Sat, 28 Mar 2026 09:12:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.846255
- Title: "Elementary, My Dear Watson." Detecting Malicious Skills via Neuro-Symbolic Reasoning across Heterogeneous Artifacts
- Title(参考訳): 『元素、私の耳のワトソン』 異種人工物にまたがるニューロシンボリック推論による悪性度の検出
- Authors: Shenao Wang, Junjie He, Yanjie Zhao, Yayi Wang, Kan Yu, Haoyu Wang,
- Abstract要約: MalSkillsは、悪意のあるスキル検出のための神経象徴的なフレームワークである。
5つの最先端ベースラインに対して200の現実世界スキルのベンチマークでMalSkillsを評価した。
MalSkillsは93%のF1を獲得し、ベースラインを587ポイント上回っている。
- 参考スコア(独自算出の注目度): 9.722744060218622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Skills are increasingly used to extend LLM agents by packaging prompts, code, and configurations into reusable modules. As public registries and marketplaces expand, they form an emerging agentic supply chain, but also introduce a new attack surface for malicious skills. Detecting malicious skills is challenging because relevant evidence is often distributed across heterogeneous artifacts and must be reasoned in context. Existing static, LLM-based, and dynamic approaches each capture only part of this problem, making them insufficient for robust real-world detection. In this paper, we present MalSkills, a neuro-symbolic framework for malicious skills detection. MalSkills first extracts security-sensitive operations from heterogeneous artifacts through a combination of symbolic parsing and LLM-assisted semantic analysis. It then constructs the skill dependency graph that links artifacts, operations, operands, and value flows across the skill. On top of this graph, MalSkills performs neuro-symbolic reasoning to infer malicious patterns or previously unseen suspicious workflows. We evaluate MalSkills on a benchmark of 200 real-world skills against 5 state-of-the-art baselines. MalSkills achieves 93% F1, outperforming the baselines by 5~87 percentage points. We further apply MalSkills to analyze 150,108 skills collected from 7 public registries, revealing 620 malicious skills. As for now, we have finished reviewing 100 of them and identified 76 previously unknown malicious skills, all of which were responsibly reported and are currently awaiting confirmation from the platforms and maintainers. These results demonstrate the potential of MalSkills in securing the agentic supply chain.
- Abstract(参考訳): スキルは、再利用可能なモジュールにプロンプト、コード、設定をパッケージングすることで、LSMエージェントを拡張するためにますます使われています。
公的登録やマーケットプレースの拡大に伴い、彼らは新たなエージェントサプライチェーンを形成すると同時に、悪意のあるスキルのための新たな攻撃面も導入する。
悪意のあるスキルの検出は、関連する証拠が異質なアーティファクトに分散し、コンテキストで推論されなければならないため、難しい。
既存の静的、LLMベースの動的アプローチは、それぞれこの問題の一部しか捉えておらず、堅牢な現実世界検出には不十分である。
本稿では,悪意あるスキル検出のための神経シンボルフレームワークであるMalSkillsを提案する。
MalSkillsはまず、記号解析とLLM支援セマンティック分析を組み合わせることで、異種アーティファクトからセキュリティに敏感な操作を抽出する。
次に、アーティファクト、オペレーション、オペランド、スキル全体のバリューフローをリンクするスキル依存グラフを構築する。
このグラフの上に、MalSkillsは、悪意あるパターンを推測したり、これまで見つからなかった不審なワークフローを推論するために、ニューロシンボリック推論を実行する。
5つの最先端ベースラインに対して200の現実世界スキルのベンチマークでMalSkillsを評価した。
MalSkillsは93%のF1を獲得し、ベースラインを5~87ポイント上回っている。
さらに、MalSkillsを使用して、7つのパブリックレジストリから収集された150,108のスキルを分析し、620の悪意のあるスキルを明らかにします。
今のところ、100件のレビューを終え、76件の既知の悪意のあるスキルを特定しました。
これらの結果は、エージェントサプライチェーンの確保におけるMalSkillsの可能性を示している。
関連論文リスト
- Malicious Or Not: Adding Repository Context to Agent Skill Classification [3.773312847224526]
我々は、AIエージェントスキルエコシステムにおける最大の経験的セキュリティ分析を提示する。
3つの主要なディストリビューションプラットフォームとGitHubから238,180のユニークなスキルを集めています。
我々の分析では、現在文書化されていない現実世界の攻撃ベクトルもいくつか発見されている。
論文 参考訳(メタデータ) (2026-03-17T14:27:35Z) - Formal Analysis and Supply Chain Security for Agentic AI Skills [0.0]
SkillFortifyは、エージェントスキルサプライチェーンのための最初の公式分析フレームワークである。
抽象解釈に基づく健全な静的解析フレームワークを提供する。
SATベースの解像度は1000ノードグラフを100ミリ秒以下で処理するのに対し、100%精度と0%偽陽性率は540スキルで達成する。
論文 参考訳(メタデータ) (2026-02-27T06:21:53Z) - Skill-Inject: Measuring Agent Vulnerability to Skill File Attacks [27.120130204872325]
SkillInjectは、広く使われているLLMエージェントの、スキルファイルによるインジェクションに対する感受性を評価するベンチマークである。
SkillInjectには、明らかに悪意のあるインジェクションから、その他の正当な命令に隠された微妙なコンテキスト依存的なアタックまで、202のインジェクションタスクペアが含まれている。
以上の結果から,今日のエージェントは,フロンティアモデルによる攻撃成功率の最大80%に対して,非常に脆弱であることが示唆された。
論文 参考訳(メタデータ) (2026-02-23T18:59:27Z) - Malicious Agent Skills in the Wild: A Large-Scale Security Empirical Study [47.60135753021306]
サードパーティのエージェントスキルは、LLMベースのエージェントを拡張して、命令ファイルとユーザのマシン上で動作する実行可能なコードを生成する。
結果として生じる脅威を特徴づけるために、地中真実のデータセットは存在しない。
我々は,98,380のスキルを行動検証することで,悪質なエージェントスキルのラベル付きデータセットを構築した。
論文 参考訳(メタデータ) (2026-02-06T09:52:27Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - LLMs know their vulnerabilities: Uncover Safety Gaps through Natural Distribution Shifts [88.96201324719205]
大規模言語モデル(LLM)の安全性に関する懸念は、事前訓練中に潜在的に有害なデータに曝されることにより、大きな注目を集めている。
我々は、有害なコンテンツに意味的に関連していると思われる良心的なプロンプトが、安全性のメカニズムを回避できる新しい安全性脆弱性をLSMで特定する。
我々は,事前学習における有害なプロンプトに関連するアクターを識別する新しい攻撃手法,textitActorBreakerを導入する。
論文 参考訳(メタデータ) (2024-10-14T16:41:49Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - Indiscriminate Poisoning Attacks Are Shortcuts [77.38947817228656]
その結果, 標的ラベルを付与した場合, 進行性毒素攻撃の摂動は, ほぼ分離可能であることがわかった。
このような合成摂動は、故意に作られた攻撃と同じくらい強力であることを示す。
我々の発見は、アンフショートカット学習の問題が以前考えられていたよりも深刻であることを示唆している。
論文 参考訳(メタデータ) (2021-11-01T12:44:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。