論文の概要: SWE-Skills-Bench: Do Agent Skills Actually Help in Real-World Software Engineering?
- arxiv url: http://arxiv.org/abs/2603.15401v1
- Date: Mon, 16 Mar 2026 15:16:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.528165
- Title: SWE-Skills-Bench: Do Agent Skills Actually Help in Real-World Software Engineering?
- Title(参考訳): SWE-Skills-Bench:エージェントスキルは現実のソフトウェア工学に役立つか?
- Authors: Tingxu Han, Yi Zhang, Wei Song, Chunrong Fang, Zhenyu Chen, Youcheng Sun, Lijie Hu,
- Abstract要約: SWE-Skills-Benchは、現実のソフトウェア工学におけるエージェントスキルの限界効用を分離する最初の要件駆動ベンチマークである。
49の公開SWEスキルと、特定のコミットにピン留めされた本物のGitHubリポジトリと、明確な受け入れ基準を持つ要件ドキュメントをペアリングする。
以上の結果から,スキルインジェクションのメリットは,迅速な採用よりもはるかに限定的であることが示唆された。
- 参考スコア(独自算出の注目度): 27.583012125198568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agent skills, structured procedural knowledge packages injected at inference time, are increasingly used to augment LLM agents on software engineering tasks. However, their real utility in end-to-end development settings remains unclear. We present SWE-Skills-Bench, the first requirement-driven benchmark that isolates the marginal utility of agent skills in real-world software engineering (SWE). It pairs 49 public SWE skills with authentic GitHub repositories pinned at fixed commits and requirement documents with explicit acceptance criteria, yielding approximately 565 task instances across six SWE subdomains. We introduce a deterministic verification framework that maps each task's acceptance criteria to execution-based tests, enabling controlled paired evaluation with and without the skill. Our results show that skill injection benefits are far more limited than rapid adoption suggests: 39 of 49 skills yield zero pass-rate improvement, and the average gain is only +1.2%. Token overhead varies from modest savings to a 451% increase while pass rates remain unchanged. Only seven specialized skills produce meaningful gains (up to +30%), while three degrade performance (up to -10%) due to version-mismatched guidance conflicting with project context. These findings suggest that agent skills are a narrow intervention whose utility depends strongly on domain fit, abstraction level, and contextual compatibility. SWE-Skills-Bench provides a testbed for evaluating the design, selection, and deployment of skills in software engineering agents. SWE-Skills-Bench is available at https://github.com/GeniusHTX/SWE-Skills-Bench.
- Abstract(参考訳): エージェントスキル、推論時に注入される手続き的知識パッケージは、ソフトウェア工学のタスクにおいてLLMエージェントを増強するためにますます利用されている。
しかし、エンド・ツー・エンドの開発環境での実際の用途は不明だ。
SWE-Skills-Benchは,実世界のソフトウェア工学(SWE)におけるエージェントスキルの限界効用を分離した,最初の要件駆動型ベンチマークである。
49の公開SWEスキルと6つのSWEサブドメインで約565のタスクインスタンスを生成する、固定コミットと明示的な受け入れ基準を備えた要件ドキュメントにピン留めされた本物のGitHubリポジトリをペアにしている。
本稿では,各タスクの受け入れ基準を実行ベーステストにマッピングする決定論的検証フレームワークを提案する。
49スキルのうち39スキルはパスレートの改善をゼロとし,平均利得は1.2%に過ぎなかった。
トークンのオーバーヘッドは、控えめな貯蓄から451%の増加へと変化し、パスレートは変わらないままである。
7つの専門スキルだけが有意義な利益(+30%まで)をもたらし、バージョンミスによるプロジェクトコンテキストの矛盾によるパフォーマンス低下(-10%まで)が3つあります。
これらの結果から,エージェントスキルはドメイン適合性,抽象化レベル,コンテキスト整合性に強く依存する狭い介入であることが示唆された。
SWE-Skills-Benchは、ソフトウェアエンジニアリングエージェントにおけるスキルの設計、選択、デプロイを評価するためのテストベッドを提供する。
SWE-Skills-Benchはhttps://github.com/GeniusHTX/SWE-Skills-Benchで入手できる。
関連論文リスト
- EvoSkill: Automated Skill Discovery for Multi-Agent Systems [6.319876096746374]
エージェントスキルを自動的に発見・洗練する自己進化型フレームワークである textbfEvoSkill を紹介する。
EvoSkillは実行障害を分析し、新しいスキルや既存のスキルへの編集を提案し、それらを構造化された再利用可能なスキルフォルダに実体化する。
われわれはEvoSkillを米国財務データの根拠となる推論ベンチマークであるOfficeQAと、ノイズの多い検索ベンチマークであるSealQAの2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2026-03-03T09:07:22Z) - Hybrid-Gym: Training Coding Agents to Generalize Across Tasks [59.95803522351185]
本稿では,多種多様なタスク間で共有される伝達可能なスキルについて述べる。
本稿では,スケーラブルな合成タスクからなる学習環境であるHybrid-Gymを提案する。
実験により、我々の合成タスクで訓練されたエージェントが、様々な現実世界のタスクを効果的に一般化できることが示されている。
論文 参考訳(メタデータ) (2026-02-18T19:30:55Z) - SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks [61.89812116484928]
エージェントスキルは、LLMエージェントを推論時に増強する手続き的知識の構造化パッケージである。
SkillsBenchは、11のドメインにわたる86のタスクのベンチマークであり、キュレートされたスキルと決定論的検証との組み合わせを示す。
キュレートされたスキルは平均パスレートを16.2ポイント(pp)上昇させるが、効果は領域によって大きく異なる。
自己生成スキルは平均的に何の利益も与えず、モデルが消費から得られる手続き的な知識を確実に説明できないことを示している。
論文 参考訳(メタデータ) (2026-02-13T07:06:06Z) - SWE-World: Building Software Engineering Agents in Docker-Free Environments [91.17484806743641]
SWE-Worldは、物理的な実行環境を、ソフトウェアエンジニアリングエージェントのトレーニングと評価のための学習的なサロゲートに置き換える、Dockerフリーのフレームワークである。
我々は,SWE-WorldがQwen2.5-Coder-32Bを,DockerフリーのSFTで6.2%から52.0%,DockerフリーのRLで55.0%,さらにTSで68.2%に引き上げたことを示す。
論文 参考訳(メタデータ) (2026-02-03T11:44:39Z) - SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training [78.37721886775215]
本稿では,効率的なソフトウェアエンジニアリングエージェントを構築するためのオープンソースフレームワークであるSWE-Masterを紹介する。
SWE-Masterは、教師-軌道合成やデータキュレーションを含む、完全なエージェント開発パイプラインを体系的に探索する。
SWE-bench Verified(SWE-bench Verified)は,現実的なソフトウェアエンジニアリングタスクの標準ベンチマークである。
論文 参考訳(メタデータ) (2026-02-03T11:38:48Z) - ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases [58.411135609139855]
タスク完了のための「ショートカット」は、大規模言語モデルの信頼性評価と展開に重大なリスクをもたらす。
我々は,LLMエージェントがテストケースを利用するための正当性を測定するベンチマークフレームワークであるImpossibleBenchを紹介する。
実践的なフレームワークとして、ImpossibleBenchは単なる評価ではなく、汎用的なツールである。
論文 参考訳(メタデータ) (2025-10-23T06:58:32Z) - The SWE-Bench Illusion: When State-of-the-Art LLMs Remember Instead of Reason [1.6249398255272318]
本稿では,SWE-Bench-Verifiedの性能向上は,真の問題解決よりも記憶によってもたらされる可能性があることを示す。
現状のモデルでは,リポジトリ構造にアクセスすることなく,問題記述のみを用いて,バグのあるファイルパスを識別する精度を最大76%向上することを示す。
これらの結果は、既存の結果の有効性に関する懸念を提起し、より堅牢で汚染に強いベンチマークの必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-14T00:25:26Z) - R2E-Gym: Procedural Environments and Hybrid Verifiers for Scaling Open-Weights SWE Agents [32.06393076572057]
AgentGymは、現実世界のSWEエージェントを訓練するための、手続き的に計算された最大のジム環境である。
Syngen、合成データキュレーションのレシピ、ハイブリッドテストタイムスケーリングの2つの主要なコントリビューションによって実現されている。
提案手法は,SWE-Bench Verifiedベンチマークで51%を達成し,オープンウェイトSWEエージェントの新たな最先端性を反映した。
論文 参考訳(メタデータ) (2025-04-09T17:55:19Z) - Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents [106.87436596397816]
大規模言語モデル(LLM)エージェントは、現実世界のソフトウェア工学(SWE)問題を解決する大きな可能性を示している。
専門知識を活かしたフレームワークであるDEI(Diversity Empowered Intelligence)を提案する。
実験により、DEAが指導するエージェント委員会が、最高のエージェントのパフォーマンスを大きなマージンで上回ることが可能であることが示されている。
論文 参考訳(メタデータ) (2024-08-13T17:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。