論文の概要: SkCC: Portable and Secure Skill Compilation for Cross-Framework LLM Agents
- arxiv url: http://arxiv.org/abs/2605.03353v1
- Date: Tue, 05 May 2026 04:15:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.763287
- Title: SkCC: Portable and Secure Skill Compilation for Cross-Framework LLM Agents
- Title(参考訳): SkCC: クロスフレームLDMエージェントのためのポータブルでセキュアなスキルコンパイル
- Authors: Yipeng Ouyang, Yi Xiao, Yuhao Gu, Xianwei Zhang,
- Abstract要約: SkCCは、エージェントスキル開発に古典的なコンパイラ設計を導入するコンパイルフレームワークである。
SkIRの中核は、スキルセマンティクスをプラットフォーム固有のフォーマットから切り離し、異種エージェントフレームワーク間のポータブルなデプロイを可能にする。
SkillsBenchの実験は、コンパイルされたスキルが元のスキルより一貫して優れていることを示した。
- 参考スコア(独自算出の注目度): 2.421205361034078
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: LLM-Agents have evolved into autonomous systems for complex task execution, with the SKILL.md specification emerging as a de facto standard for encapsulating agent capabilities. However, a critical bottleneck remains: different agent frameworks exhibit starkly different sensitivities to prompt formatting, causing up to 40% performance variation, yet nearly all skills exist as a single, format-agnostic Markdown version. Manual per-platform rewriting creates an unsustainable maintenance burden, while prior audits have found that over one third of community skills contain security vulnerabilities. To address this, we present SkCC, a compilation framework that introduces classical compiler design into agent skill development. At its core, SkIR - a strongly-typed intermediate representation - decouples skill semantics from platform-specific formatting, enabling portable deployment across heterogeneous agent frameworks. Around this IR, a compile-time Analyzer enforces security constraints via Anti-Skill Injection before deployment. Through a four-phase pipeline, SkCC reduces adaptation complexity from $O(m \times n)$ to $O(m + n)$. Experiments on SkillsBench demonstrate that compiled skills consistently outperform their original counterparts, improving pass rates from 21.1% to 33.3% on Claude Code and from 35.1% to 48.7% on Kimi CLI, while achieving sub-10ms compilation latency, a 94.8% proactive security trigger rate, and 10-46% runtime token savings across platforms.
- Abstract(参考訳): LLM-Agentsは複雑なタスク実行のための自律システムへと進化し、SKILL.md仕様はエージェント機能をカプセル化するデファクトスタンダードとして登場した。
しかし、重要なボトルネックが残っている: 異なるエージェントフレームワークは、フォーマットの促進に非常に異なる感受性を示し、最大40%のパフォーマンスのばらつきを引き起こすが、ほぼすべてのスキルが、単一のフォーマットに依存しないMarkdownバージョンとして存在している。
一方、以前の監査では、コミュニティスキルの3分の1以上がセキュリティ上の脆弱性を含んでいることがわかった。
そこで本稿では,従来のコンパイラ設計をエージェントスキル開発に導入するコンパイルフレームワークであるSkCCを紹介する。
コアとなるSkIR – 強く型付けされた中間表現 – は、スキルセマンティクスをプラットフォーム固有のフォーマットから切り離し、異種エージェントフレームワーク間のポータブルなデプロイを可能にする。
このIRの周りには、コンパイル時のAnalyzerがデプロイ前にアンチスキルインジェクションを通じてセキュリティ制約を実行する。
4相パイプラインを通して、SkCCは適応複雑性を$O(m \times n)$から$O(m + n)$に下げる。
SkillsBenchの実験では、コンパイルスキルはオリジナルのスキルより一貫して優れており、Claude Codeでは21.1%から33.3%、Kimi CLIでは35.1%から48.7%に向上し、コンパイルレイテンシは10ms未満、94.8%のプロアクティブなセキュリティトリガレート、プラットフォーム全体で10-46%のランタイムトークンセーブを実現している。
関連論文リスト
- CADMAS-CTX: Contextual Capability Calibration for Multi-Agent Delegation [0.0]
CADMAS-CTXはコンテキストキャリブレーションのためのフレームワークである。
階層的なコンテキスト能力プロファイルは、静的なスキルレベルの信頼性をコンテキスト条件の後方に置き換える。
GAIAとSWE-benchベンチマークを用いて,本手法の有効性を実証的に検証した。
論文 参考訳(メタデータ) (2026-04-20T08:30:28Z) - Supply-Chain Poisoning Attacks Against LLM Coding Agent Skill Ecosystems [35.65937852381774]
Document-Driven Implicit Payload Execution (DDIPE)は、コード例や設定テンプレートに悪意のあるロジックを埋め込む。
我々は15のMITRE ATTACKカテゴリで81種から1,070の対逆スキルを生成した。
DDIPEは11.6%から33.5%のバイパス率を獲得し、明示的な命令攻撃は強い防御下で0%を達成する。
論文 参考訳(メタデータ) (2026-04-03T14:58:58Z) - SafeClaw-R: Towards Safe and Secure Multi-Agent Personal Assistants [10.897758061443989]
SafeClaw-Rは、実行グラフ上のシステムレベルの不変量として安全を強制するフレームワークである。
生産性プラットフォーム、サードパーティのスキルエコシステム、コード実行環境の3つの領域でSafeClaw-Rを評価します。
論文 参考訳(メタデータ) (2026-03-28T05:03:54Z) - MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild [74.7263562191605]
大規模言語モデル(LLM)エージェントは、複雑なタスクにますます使われている。
既存の方法は、知識を蒸留せずに生の軌跡を保存するか、静的なスキルライブラリを維持するか、または再訓練のために破壊的なダウンタイムを必要とする。
本稿では,基本的なLCMポリシと再利用可能な行動スキルのライブラリを共同で進化させるメタ学習フレームワークであるMetaClawを紹介する。
論文 参考訳(メタデータ) (2026-03-17T22:30:30Z) - CVE-Factory: Scaling Expert-Level Agentic Tasks for Code Security Vulnerability [50.57373283154859]
CVE-Factoryは、脆弱性タスクを自動変換するエキスパートレベルの品質を実現するための、最初のマルチエージェントフレームワークである。
最新の現実的な脆弱性についても評価され、66.2%の成功が証明されている。
コードセキュリティにおけるエージェントタスクの大規模スケーリングとして,1000以上の実行可能なトレーニング環境を合成する。
論文 参考訳(メタデータ) (2026-02-03T02:27:16Z) - RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - STAC: When Innocent Tools Form Dangerous Chains to Jailbreak LLM Agents [38.755035623707656]
本稿では,エージェントツールの利用を生かした新しいマルチターンアタックフレームワークSTACについて紹介する。
我々は,483のSTACケースを自動生成し,評価するために,1,352セットのユーザエージェント環境相互作用を特徴とするフレームワークを適用した。
GPT-4.1を含む最先端のLSMエージェントはSTACに対して極めて脆弱であり,攻撃成功率(ASR)は90%以上である。
論文 参考訳(メタデータ) (2025-09-30T00:31:44Z) - SafeSieve: From Heuristics to Experience in Progressive Pruning for LLM-based Multi-Agent Communication [19.633176635669397]
プログレッシブで適応的なマルチエージェント・プルーニングアルゴリズムであるSafeSieveを提案する。
SafeSieveの平均精度は94.01%であり、トークン使用率を12.4%から27.8%削減している。
これらの結果はSafeSieveを実用マルチエージェントシステムのための堅牢で効率的でスケーラブルなフレームワークとして確立している。
論文 参考訳(メタデータ) (2025-08-15T13:44:50Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。