論文の概要: SPICE: An Automated SWE-Bench Labeling Pipeline for Issue Clarity, Test Coverage, and Effort Estimation
- arxiv url: http://arxiv.org/abs/2507.09108v2
- Date: Mon, 28 Jul 2025 14:51:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 14:15:46.947059
- Title: SPICE: An Automated SWE-Bench Labeling Pipeline for Issue Clarity, Test Coverage, and Effort Estimation
- Title(参考訳): SPICE: 課題の明確性、テストカバレッジ、評価のための自動SWE-Benchラベルパイプライン
- Authors: Aaditya Bhatia, Gustavo A. Oliva, Gopi Krishnan Rajbahadur, Haoxiang Zhang, Yihao Chen, Zhilong Chen, Arthur Leung, Dayi Lin, Boyuan Chen, Ahmed E. Hassan,
- Abstract要約: SWEベンチスタイルのデータセットをラベル付けするためのスケーラブルで自動化されたパイプラインであるSPICEを紹介する。
SPICEは、コンテキスト対応のコードナビゲーション、合理化によるプロンプト、マルチパスコンセンサスを組み合わせて、専門家のアノテーションに近似したラベルを生成する。
SPICEツールとSPICE Benchは、SWE-Gymの291のオープンソースプロジェクトから収集された6,802のSPICEラベル付きインスタンスのデータセットです。
- 参考スコア(独自算出の注目度): 15.440452544444716
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: High-quality labeled datasets are crucial for training and evaluating foundation models in software engineering, but creating them is often prohibitively expensive and labor-intensive. We introduce SPICE, a scalable, automated pipeline for labeling SWE-bench-style datasets with annotations for issue clarity, test coverage, and effort estimation. SPICE combines context-aware code navigation, rationale-driven prompting, and multi-pass consensus to produce labels that closely approximate expert annotations. SPICE's design was informed by our own experience and frustration in labeling more than 800 instances from SWE-Gym. SPICE achieves strong agreement with human-labeled SWE-bench Verified data while reducing the cost of labeling 1,000 instances from around $100,000 (manual annotation) to just $5.10. These results demonstrate SPICE's potential to enable cost-effective, large-scale dataset creation for SE-focused FMs. To support the community, we release both SPICE tool and SPICE Bench, a new dataset of 6,802 SPICE-labeled instances curated from 291 open-source projects in SWE-Gym (over 13x larger than SWE-bench Verified).
- Abstract(参考訳): 高品質なラベル付きデータセットは、ソフトウェア工学の基礎モデルのトレーニングと評価に不可欠だが、それらを作成することは、しばしば高価で労働集約的である。
SPICEは、SWEベンチスタイルのデータセットをラベル付けするためのスケーラブルで自動化されたパイプラインであり、イシューの明確性、テストカバレッジ、労力推定のためのアノテーションを備えている。
SPICEは、コンテキスト対応のコードナビゲーション、合理化によるプロンプト、マルチパスコンセンサスを組み合わせて、専門家のアノテーションに近似したラベルを生成する。
SPICEの設計は、SWE-Gymから800以上のインスタンスをラベル付けする際の私たちの経験とフラストレーションから知らされた。
SPICEは、人間ラベル付きSWEベンチ検証データとの強い合意を達成し、1000インスタンスのラベル付けコストを約10万ドル(マニュアルアノテーション)からわずか5.10ドルに削減した。
これらの結果から,SE型FMのコスト効率,大規模データセット作成を可能にするSPICEの可能性が示された。
SPICEツールとSPICE Benchは、SWE-Gymの291のオープンソースプロジェクト(SWE-bench Verifiedの13倍以上)から収集された6,802のSPICEラベル付きインスタンスのデータセットです。
関連論文リスト
- SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents [34.16732444158405]
LLMベースのエージェントは、SWE(Software Engineering)タスクの増加に期待できる能力を示している。
高品質なトレーニングデータは、特に現実世界のSWEシナリオを反映したデータが少ない。
既存のデータセットはワンショットのコード生成に限られるか、小さな手作業による対話的なタスクのコレクションで構成されている。
論文 参考訳(メタデータ) (2025-05-26T18:01:00Z) - Self-Paced Sample Selection for Barely-Supervised Medical Image Segmentation [22.69909762038458]
画像登録によって生成された擬似ラベルには大きなノイズが伴う。
医用画像セグメンテーションのためのセルフペーストサンプル選択フレームワーク(SPSS)を提案する。
論文 参考訳(メタデータ) (2024-07-07T03:36:23Z) - ALPS: An Auto-Labeling and Pre-training Scheme for Remote Sensing Segmentation With Segment Anything Model [32.91528641298171]
ALPS (Automatic Labeling for Pre-training in Pre-training in Remote Sensing) という,革新的な自動ラベリングフレームワークを導入する。
我々はSegment Anything Model(SAM)を利用して、事前のアノテーションや追加のプロンプトを必要とせずに、RS画像の正確な擬似ラベルを予測する。
提案手法は,iSAIDやISPRS Potsdamなど,様々なベンチマークにおけるダウンストリームタスクの性能を向上させる。
論文 参考訳(メタデータ) (2024-06-16T09:02:01Z) - An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models [55.01592097059969]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。
アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。
本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:56:54Z) - MEGAnno: Exploratory Labeling for NLP in Computational Notebooks [9.462926987075122]
本稿では,NLP実践者と研究者を対象とした新しいアノテーションフレームワークMEGAnnoを紹介する。
MEGAnnoを使えば、ユーザーは高度な検索機能と対話型提案機能を通じてデータを探索できる。
我々は,MEGAnnoのフレキシブル,探索的,効率的,シームレスなラベル付け体験を感情分析のユースケースを通じて実証する。
論文 参考訳(メタデータ) (2023-01-08T19:16:22Z) - PointMatch: A Consistency Training Framework for Weakly Supervised
Semantic Segmentation of 3D Point Clouds [117.77841399002666]
本稿では,データ自体から十分な情報を探索するために整合性正規化を適用することで,データとラベルの両面に立つ新しいフレームワークであるPointMatchを提案する。
提案したPointMatchは、ScanNet-v2データセットとS3DISデータセットの両方で、様々な弱い教師付きスキームの下で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-02-22T07:26:31Z) - ECLARE: Extreme Classification with Label Graph Correlations [13.429436351837653]
本稿では,ラベルテキストだけでなくラベル相関も組み込んだスケーラブルなディープラーニングアーキテクチャECLAREを提案し,数ミリ秒以内の正確なリアルタイム予測を実現する。
ECLAREは、Bing検索エンジンからソースされた関連製品レコメンデーションタスク用のプロプライエタリデータセットと同様に、公開可能なベンチマークデータセットの両方で2~14%精度の予測を提供する。
論文 参考訳(メタデータ) (2021-07-31T15:13:13Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。