論文の概要: Toward User Comprehension Supports for LLM Agent Skill Specifications
- arxiv url: http://arxiv.org/abs/2605.19362v2
- Date: Wed, 20 May 2026 17:49:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 14:55:44.34021
- Title: Toward User Comprehension Supports for LLM Agent Skill Specifications
- Title(参考訳): LLMエージェントスキル仕様のユーザ理解支援に向けて
- Authors: Zikai Alex Wen,
- Abstract要約: スキルが何を消費し、生産し、カバーするかに関して、ユーザが限定的な期待を形成するのに、仕様が役立つかどうかを調査する。
878のサイバーセキュリティスキルを通じて、私たちは4つの理解アンカーのテキストの手がかりを測定するためにルールベースのコーディングを使用しました。
エージェントスキルの評価は、仕様をユーザ対応能力開示として扱うべきであると論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Users often interpret and select agent skills through their SKILL markdown specifications. To protect users, existing audits mainly focus on malicious or unsafe skills. We study the complementary question of whether specifications help users form bounded expectations about what a skill consumes, produces, and covers. Across 878 cybersecurity skills, we used rule-based coding to measure textual cues for four comprehension anchors, namely operational basis, output contract, boundary disclosure, and example capability demonstration. Cues for operational basis were common, but only 19.0% of specifications exhibited cues for an example task, sample, or expected outcome, and only 2.3% exhibited cues for all four anchors. We further examined a small DNS/C2 telemetry subset (n$=$6) to illustrate why missing examples may matter. Examples appeared to make first local checks easier to construct, while no-example skills typically required helper code inspection to recover command arguments or output fields. We argue that agent-skill evaluation should treat specifications as user-facing capability disclosures, not merely as containers for executable instructions.
- Abstract(参考訳): ユーザはしばしば、SKILLマークダウン仕様を通じてエージェントスキルを解釈し、選択する。
ユーザを保護するため、既存の監査は主に悪意のあるスキルや安全でないスキルに重点を置いている。
我々は,スキルが何を消費し,生産し,カバーするかに関して,ユーザが期待する境界を形成する上で,仕様が有効かどうかという補完的な問題について検討する。
878のサイバーセキュリティスキルを通じて、私たちはルールベースのコーディングを使用して、4つの理解アンカー(運用ベース、アウトプット契約、バウンダリ開示、例能力実証)のテキストキューを測定しました。
運用ベースでのキューは一般的であったが、例題、サンプル、または期待結果のキューは19.0%に過ぎず、アンカー4台すべてで2.3%に留まった。
さらに,少人数のDNS/C2テレメトリサブセット(n$=$6)について検討した。
例を挙げると、最初のローカルチェックを構築しやすいように見え、例のないスキルでは、コマンド引数や出力フィールドを復元するためにヘルパーコード検査が必要であった。
エージェントスキルの評価では、仕様を実行可能な命令のコンテナとしてではなく、ユーザ対応の能力開示として扱うべきだと論じている。
関連論文リスト
- From Skill Text to Skill Structure: The Scheduling-Structural-Logical Representation for Agent Skills [5.327990835740087]
スケジューリング-構造論理(SSL)表現は、スキルレベルのスケジューリング信号、シーンレベルの実行構造、ロジックレベルのアクション/リソース使用エビデンスを歪めます。
SSL を LLM ベースの正規化器でインスタンス化し,SSL 由来の表現をスキル発見とリスク評価という2つのタスクで評価する。
論文 参考訳(メタデータ) (2026-04-27T04:25:15Z) - Supply-Chain Poisoning Attacks Against LLM Coding Agent Skill Ecosystems [35.65937852381774]
Document-Driven Implicit Payload Execution (DDIPE)は、コード例や設定テンプレートに悪意のあるロジックを埋め込む。
我々は15のMITRE ATTACKカテゴリで81種から1,070の対逆スキルを生成した。
DDIPEは11.6%から33.5%のバイパス率を獲得し、明示的な命令攻撃は強い防御下で0%を達成する。
論文 参考訳(メタデータ) (2026-04-03T14:58:58Z) - Understanding Contextual Recall in Transformers: How Finetuning Enables In-Context Reasoning over Pretraining Knowledge [50.009682083079205]
我々は,文脈的リコールが単独で事前学習から生じるかどうかを検討する。
ICL評価とは異なる暗黙的推論を必要とするタスクの微調整は、文脈的リコールの出現を誘発することを示す。
メカニカル・インサイト(メカニカル・インサイト)では,現実から文脈への遷移を再現するアテンションオンリー・トランスフォーマーの構成を導出する。
論文 参考訳(メタデータ) (2026-03-21T22:46:55Z) - Auxiliary Metrics Help Decoding Skill Neurons in the Wild [52.148049490080496]
我々は、特定のスキルをコードするニューロンを分離するための、シンプルで軽量で広く適用可能な方法を紹介した。
我々は,ニューロンの活性化を,外部ラベルやモデル自身の信頼スコアなどの補助的指標と相関する。
我々は,オープンエンドテキスト生成と自然言語推論にまたがるタスクに対して,我々の手法を実証的に検証する。
論文 参考訳(メタデータ) (2025-11-26T17:31:53Z) - Learning Task Representations from In-Context Learning [67.66042137487287]
大規模言語モデル(LLM)は、文脈内学習(ICL)において顕著な習熟性を示した。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法は,テキスト中の実演からタスク固有の情報を抽出し,テキストと回帰タスクの両方で優れる。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - On the Loss of Context-awareness in General Instruction Fine-tuning [101.03941308894191]
教師付き微調整後の文脈認識の喪失について検討した。
性能低下は,会話指導の微調整中に学んだ異なる役割に対する偏見と関連していることがわかった。
一般命令微調整データセットから文脈依存例を識別する指標を提案する。
論文 参考訳(メタデータ) (2024-11-05T00:16:01Z) - SpeciaLex: A Benchmark for In-Context Specialized Lexicon Learning [4.1205832766381985]
SpeciaLexは、特殊レキシコンベースの制約に従う言語モデルの能力を評価するためのベンチマークである。
本稿では,15のオープン・クローズド・ソース LLM の実証評価を行い,モデルスケール,オープンネス,セットアップ,信頼性などの要因が,ベンチマークで評価した場合のパフォーマンスに与える影響について考察する。
論文 参考訳(メタデータ) (2024-07-18T08:56:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。