論文の概要: SkillGenBench: Benchmarking Skill Generation Pipelines for LLM Agents
- arxiv url: http://arxiv.org/abs/2605.18693v1
- Date: Mon, 18 May 2026 17:28:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:50.200164
- Title: SkillGenBench: Benchmarking Skill Generation Pipelines for LLM Agents
- Title(参考訳): SkillGenBench: LLMエージェントのためのベンチマークスキル生成パイプライン
- Authors: Yifan Zhou, Zhentao Zhang, Ziming Cheng, Shuo Zhang, Qizhen Lan, Zhangquan Chen, Zhi Yang, QianyuXu, Ronghao Chen, Huacan Wang, Sen Hu,
- Abstract要約: 我々は、統一されたプロトコルの下でスキル生成パイプラインを評価するためのベンチマークであるSkillGenBenchを紹介する。
ジェネレータは生のコーパスを受け取り、標準化されたスキルアーティファクトを生成し、固定ハーネスの下で実行される。
様々なスキルジェネレーション手法とバックボーンの実験は、かなりの性能変化を示している。
- 参考スコア(独自算出の注目度): 15.669318649782285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As LLM agents are increasingly built around reusable skills, a central challenge is no longer only whether agents can use provided skills, but whether they can generate correct, reusable, and executable skills from repositories and documents. Existing benchmarks primarily evaluate the efficacy of given skills or the ability of agents to solve downstream tasks from raw context, but they do not isolate skill generation itself as the object of study. We introduce SkillGenBench, a benchmark for evaluating skill generation pipelines under a unified and controlled protocol. In SkillGenBench, a generator receives raw corpora and produces standardized skill artifacts, which are then executed under fixed harnesses and assessed with unified evaluation procedures. The benchmark covers two generation regimes: task-conditioned generation, where a task-specific skill is synthesized after the task is revealed, and task-agnostic generation, where a reusable skill library must be distilled before downstream tasks are known. It also spans two complementary procedural sources: repository-grounded instances, where procedures are distributed across code, configuration, and scripts, and document-grounded instances, where procedures and constraints must be distilled from long-form text. We provide standardized task specifications, pinned environments, and evaluation protocols centered on deterministic execution-based checks, supplemented by auxiliary signals for diagnosis. Experiments across a range of skill-generation methods and backbones show substantial performance variation, highlight the difficulty of reusable skill distillation, and reveal distinct failure modes in skill generation from software repositories versus long-form documents. SkillGenBench establishes a reproducible testbed for studying skill generation as an independent research problem in agent systems.
- Abstract(参考訳): LLMエージェントは、再利用可能なスキルを中心に構築されているため、エージェントが提供されたスキルを利用できるかどうかだけでなく、リポジトリやドキュメントから正確で再利用可能なスキルを生成できるかどうかという課題が、もはや中心的な課題である。
既存のベンチマークでは、与えられたスキルの有効性やエージェントが生の文脈から下流のタスクを解く能力を評価しているが、彼らは学習対象としてスキル生成自体を分離していない。
SkillGenBenchは、統一および制御されたプロトコルの下で、スキル生成パイプラインを評価するためのベンチマークである。
SkillGenBenchでは、ジェネレータが生のコーパスを受け取り、標準化されたスキルアーティファクトを生成する。
このベンチマークは、タスク条件付き生成(タスクが明らかになった後にタスク固有のスキルが合成される)と、ダウンストリームタスクが知られる前に再利用可能なスキルライブラリを蒸留しなければならないタスク非依存生成(タスク非依存生成)の2つの世代体制をカバーしている。
プロシージャをコード、コンフィギュレーション、スクリプトに分散するリポジトリ基底インスタンスと、長い形式のテキストからプロシージャと制約を蒸留しなければならないドキュメント基底インスタンスの2つの補完的なプロシージャソースも対象とする。
我々は,標準化されたタスク仕様,ピン付き環境,および決定論的実行ベースチェックを中心とした評価プロトコルを,診断のための補助信号で補完する。
様々なスキル生成手法とバックボーンの実験は、大幅なパフォーマンスの変化を示し、再利用可能なスキル蒸留の難しさを強調し、ソフトウェアリポジトリから長期文書へのスキル生成において、異なる障害モードを明らかにする。
SkillGenBenchは、エージェントシステムにおける独立した研究問題として、スキル生成を研究するための再現可能なテストベッドを確立する。
関連論文リスト
- SkillRAE: Agent Skill-Based Context Compilation for Retrieval-Augmented Execution [10.83969404435554]
大きな言語モデル(LLM)ベースのエージェントは、アーティファクトリッチなタスクを解決するために、再利用可能なスキルライブラリに依存している。
本稿では,スキルベースのコンテキストコンパイルに着目した2段階RAE手法であるSkillRAEを提案する。
2つの公開ベンチマークの実験によると、SkillRAEはRAEのベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2026-05-11T07:31:48Z) - Skill-R1: Agent Skill Evolution via Reinforcement Learning [84.35984979949502]
Skill-R1は、検証可能な報酬からインスタンスレベルの繰り返しスキル最適化のための強化学習フレームワークである。
オープンソースモデルとクローズドソースモデルの両方とのブラックボックス互換性を維持しつつ、モデルレベルの更新よりも大幅に安価に適応できる。
論文 参考訳(メタデータ) (2026-05-10T06:19:15Z) - Evidence Over Plans: Online Trajectory Verification for Skill Distillation [59.17625804241461]
後方蒸留指数 (Posterior Distillation Index, PDI) は、タスク環境証拠に蒸留技術がどの程度うまく根付いているかを測る軌跡レベルの指標である。
SPARKはPDIを計算するのに使用される環境検証トラジェクトリを生成する。
本研究では,SPARK生成スキルが非スキルベースラインを一貫して上回り,学生モデルにおける人書きスキルを上回っていることを示す。
論文 参考訳(メタデータ) (2026-05-09T22:15:13Z) - SkillGen: Verified Inference-Time Agent Skill Synthesis [60.927977774369516]
SkillGenは、ベースエージェントによって生成されたトラジェクトリから単一の監査可能なスキルを合成するフレームワークである。
再利用可能な成功パターン、繰り返し発生する障害モード、そして近くの成功に現れるが失敗に欠ける行動を特定する。
SkillGenの重要な特徴は、エージェントスキルを、全体的なパフォーマンスに対するスキルのネット効果を実証的に検証するための介入としてモデル化することです。
論文 参考訳(メタデータ) (2026-05-09T19:24:11Z) - Can Coding Agents Reproduce Findings in Computational Materials Science? [49.254975563645786]
本稿では,大規模言語モデルの科学的主張を再現する能力を評価するためのベンチマークであるAutoMatを紹介する。
課題を専門とする専門家と緊密に連携することで、実際の材料科学論文からの一連の主張をキュレートし、コーディングエージェントがエンドツーエンドのワークフローを回復し実行できるかどうかを検証します。
結果、現在のLSMベースのエージェントはAutoMatの全体的な成功率を低くし、最も優れた設定は54.1%に過ぎなかった。
論文 参考訳(メタデータ) (2026-05-01T17:42:12Z) - SKILLFOUNDRY: Building Self-Evolving Agent Skill Libraries from Heterogeneous Scientific Resources [5.7282243774488295]
我々は、リソースを検証されたエージェントスキルに変換する自己進化型フレームワークであるSkillFoundryを紹介する。
SkillFoundryは,比較的新規で,内部的に有効なスキルライブラリであることを示す。
また,SkillFoundryは,具体的な科学的目的の要求に応じて,新たなタスク固有のスキルを設計できることを示す。
論文 参考訳(メタデータ) (2026-04-05T05:02:18Z) - Beyond Isolated Tasks: A Framework for Evaluating Coding Agents on Sequential Software Evolution [5.10403054516716]
既存のデータセットは、分離された単一のプルリクエスト(PR)タスクのパフォーマンスをステートレスな方法で評価する。
本稿では,SWE-STEPSのデータセット生成を支援する自動コーディングタスク生成フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-03T13:44:40Z) - Agent psychometrics: Task-level performance prediction in agentic coding benchmarks [24.348135523715815]
本稿では,エージェントプログラミング体制に合わせて,個々のタスクにおける成功や失敗を予測する枠組みを提案する。
我々のアプローチは、イシューステートメント、リポジトリコンテキスト、ソリューション、テストケースなど、タスクから抽出された豊富な機能を備えたアイテム応答理論(IRT)を拡張します。
論文 参考訳(メタデータ) (2026-04-01T07:59:59Z) - SoK: Agentic Skills -- Beyond Tool Use in LLM Agents [6.356997609995175]
エージェントシステムは、より確実にロングホライゾンを実行するために、再利用可能な手続き能力、すなわちエージェントスキルに依存している。
本論文は,全ライフサイクルのスキルレイヤ(発見,実践,蒸留,貯蔵,構成,評価,更新)をマッピングする。
我々は、スキルベースのエージェントのセキュリティとガバナンスの影響を分析し、サプライチェーンのリスク、スキルペイロードによるインジェクションの促進、信頼度の高い実行をカバーします。
論文 参考訳(メタデータ) (2026-02-24T13:11:38Z) - Self-Challenging Language Model Agents [98.62637336505242]
本稿では,エージェントが自ら生成する高品質なタスクについて,エージェントを訓練するためのセルフチェンジフレームワークを提案する。
このフレームワークは、Llama-3.1-8B-Instructの2倍の改善を実現している。
論文 参考訳(メタデータ) (2025-06-02T14:23:33Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。