論文の概要: Do Skill Descriptions Tell the Truth? Detecting Undisclosed Security Behaviors in Code-Backed LLM Skills
- arxiv url: http://arxiv.org/abs/2605.12875v1
- Date: Wed, 13 May 2026 01:44:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.751542
- Title: Do Skill Descriptions Tell the Truth? Detecting Undisclosed Security Behaviors in Code-Backed LLM Skills
- Title(参考訳): スキル記述は真実を語るか? コード支援型LLMスキルにおける未公表のセキュリティ行動の検出
- Authors: Wenhui He, Yue Li, Bang Fu, Huan Xing, Xing Fan, ZeHua Zhang, Baoning Niu,
- Abstract要約: LLMエコシステムにおけるプログラムスキルは、自然言語記述と実行可能な実装ファイルから構成される。
本報告では, 実装がセキュリティ関連範囲内に留まっているかどうかを問うことで, 実装の不整合性について考察する。
- 参考スコア(独自算出の注目度): 12.438780299836578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Programmatic skills in LLM ecosystems consist of a natural-language description and executable implementation files. Users and LLMs rely on the description to understand the skill's scope. However, the implementation may perform security-relevant operations, such as credential access, network communication, or command execution, that the description does not state. We study this description--implementation inconsistency by asking whether the implementation stays within the security-relevant scope declared in the description. We manually analyze 920 real-world programmatic skills and construct an 11-category security property taxonomy. Based on this taxonomy, we build SKILLSCOPE, which constructs source-level security property graphs (SPGs) from implementations and performs LLM-assisted consistency checking. SPG nodes retain source-level code patterns rather than abstract taxonomy labels, preserving fine-grained evidence for checking. On 4,556 programmatic skills with double-blind human review, SKILLSCOPE achieves a precision of 84.8\% and a recall of 96.5\% for identifying inconsistency. Confirmed inconsistency affects 9.4\% of skills, while cases of coarser description, in which implementation details remain within the declared scope, account for 24.3\%. Ablation experiments confirm that both the SPG and the taxonomy contribute: removing the taxonomy reduces precision from 87.8\% to 72.3\%, while removing the SPG reduces recall from 94.7\% to 79.0\%.
- Abstract(参考訳): LLMエコシステムにおけるプログラムスキルは、自然言語記述と実行可能な実装ファイルから構成される。
ユーザとLLMはスキルの範囲を理解するために記述に依存する。
しかし、その実装は、クレデンシャルアクセス、ネットワーク通信、コマンド実行などのセキュリティ関連操作を実行し、記述が記述しないようにする。
本報告では, 実装がセキュリティ関連範囲内に留まっているかどうかを問うことで, 実装の不整合性について考察する。
実世界の920のプログラムスキルを手動で分析し,11カテゴリのセキュリティ資産分類を構築した。
この分類に基づいて,ソースレベルのセキュリティプロパティグラフ(SPG)を実装から構築し,LCMによる一貫性チェックを行うSKILLSCOPEを構築した。
SPGノードは、抽象分類ラベルではなく、ソースレベルのコードパターンを保持し、チェックの詳細な証拠を保存する。
二重盲検によるプログラムスキル4,556では、SKILLSCOPEは84.8\%の精度と96.5\%の不整合を識別するリコールを達成している。
確証された矛盾は9.4\%のスキルに影響を与えるが、粗い記述の場合では、実装の詳細が宣言された範囲内に留まり、24.3\%である。
分類の除去は87.8\%から72.3\%に精度を低下させ、SPGの除去は94.7\%から79.0\%にリコールを減少させる。
関連論文リスト
- Behavioral Integrity Verification for AI Agent Skills [9.127363793428119]
我々はこれを行動整合性検証(BIV)問題として定式化する。
OpenClawレジストリの49,943のスキルでは、逸脱分類が広範な記述と実装のギャップを明らかにしている。
906スキルの悪質なスキル検出ベンチマークでは、BIVは0.946のF1に達し、最先端のルールベースとシングルパスのLCMベースラインを上回っている。
論文 参考訳(メタデータ) (2026-05-12T08:41:09Z) - SAVANT: Vulnerability Detection in Application Dependencies through Semantic-Guided Reachability Analysis [6.989158266868967]
Java開発におけるオープンソースのサードパーティライブラリの依存関係の統合は、重大なセキュリティリスクをもたらす。
Savantは、セマンティックプリプロセッシングとLLMによるコンテキスト分析を組み合わせて、正確な脆弱性検出を行う。
Savantは83.8%の精度、73.8%のリコール、69.0%の精度、78.5%のF1スコアを達成し、最先端のSCAツールを上回っている。
論文 参考訳(メタデータ) (2025-06-21T19:48:13Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - Can LLM Prompting Serve as a Proxy for Static Analysis in Vulnerability Detection [9.269926508651091]
大規模言語モデル(LLM)は、脆弱性検出などの安全クリティカルなコードタスクに制限があることを示している。
本稿では,脆弱性の自然言語命令を,対照的な連鎖推論と統合する戦略を提案する。
本研究は,静的アナライザの厳格な手作りルールに代えて,セキュリティ対応のプロンプト技術が有効であることを示す。
論文 参考訳(メタデータ) (2024-12-16T18:08:14Z) - Traceable LLM-based validation of statements in knowledge graphs [0.0]
本稿では,LPMを用いたRDFトリプルの検証手法を提案する。
LLMは、ユーザプロンプトに対する応答を構築するために使用される情報の起源を、現在確実に特定できないため、我々のアプローチは、内部のLLMの事実知識を完全に使用することを避けることである。
代わりに、認証されたRDF文は、ウェブ検索またはウィキペディアで検索された外部文書の断片と比較される。
論文 参考訳(メタデータ) (2024-09-11T12:27:41Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。