論文の概要: PITMuS: A Tool for Automated Bug Dataset Generation via Source-Level Mutant Reconstruction
- arxiv url: http://arxiv.org/abs/2605.21930v1
- Date: Thu, 21 May 2026 02:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.513588
- Title: PITMuS: A Tool for Automated Bug Dataset Generation via Source-Level Mutant Reconstruction
- Title(参考訳): PITMuS:ソースレベル変異体再構成によるバグデータセット自動生成ツール
- Authors: Tasfia Tasnim, Soneya Binta Hossain,
- Abstract要約: PITMuSは、バイトコードレベルで突然変異を実行するJavaの突然変異テストツールである。
PITMuS XMLメタデータとコンパイルされたJavaクラスファイルからのデバッグ情報を組み合わせて、各ミュータントに対応するソース編集をローカライズし、再構築する。
ソースレベルのバグと固定コードペア、ドキュメントコンテキスト、下流のトレーニングと評価のためのメタデータを含む構造化データセットを生成する。
- 参考スコア(独自算出の注目度): 5.590965631053725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based software engineering increasingly depends on executable, context-rich bug artifacts: paired correct and buggy code, methods under test (MUTs), documentation, and metadata. These artifacts support the training and evaluation of automated bug localization and repair techniques, testing and test oracle generation methods, and documentation-driven automation. Although curated benchmarks (e.g., Defects4J) remain valuable, they are static and increasingly vulnerable to contamination as code models are trained on large public corpora. A complementary strategy is to generate fresh, cutoff-aware datasets by selecting real system versions and injecting controlled bugs at the source level. Mutation testing is a natural basis for this strategy: it applies predefined mutation operators to programs and records whether the existing test suite detects each injected change. PIT is a state-of-the-practice mutation testing tool for Java that performs mutation at the bytecode level. This design makes mutation testing fast and practical, but PITMuS reports mutants primarily through XML, making them difficult to inspect, replay, or reuse as structured source-level dataset records. To address this gap, we present PITMuS, which combines PITMuS XML metadata with debug information from compiled Java class files to localize and reconstruct the source edit corresponding to each mutant. PITMuS then automatically produces structured datasets containing source-level buggy and fixed code pairs, documentation context, and metadata for downstream training and evaluation. Although we evaluate PITMuS on eight open-source Java systems, it can be applied to any Java system where PITMuS can be integrated.
- Abstract(参考訳): LLMベースのソフトウェアエンジニアリングは、ますます実行可能で、コンテキストに富んだバグアーティファクトに依存している:ペア化された正しいコードとバグの多いコード、テスト中のメソッド(MUT)、ドキュメント、メタデータ。
これらのアーティファクトは、自動バグローカライゼーションと修復テクニックのトレーニングと評価、オラクル生成方法のテストとテスト、ドキュメント駆動の自動化をサポートする。
キュレートされたベンチマーク(例:Defects4J)は価値はあるものの、コードモデルが大規模な公開コーパスでトレーニングされているため、静的であり、汚染に対してますます脆弱になっている。
補完的な戦略は、実際のシステムバージョンを選択し、ソースレベルで制御されたバグを注入することで、新しくカットオフ対応のデータセットを生成することである。
プログラムに事前定義された突然変異演算子を適用し、既存のテストスイートが各注入された変更を検出するかどうかを記録する。
PITは、バイトコードレベルで突然変異を実行するJavaのための、最先端の突然変異テストツールである。
この設計により、突然変異テストは高速かつ実用的なものとなるが、PITMuSは、主にXMLを通してミュータントを報告し、構造化されたソースレベルのデータセットレコードとして検査、再生、再利用が困難になる。
このギャップに対処するために、PITMuS XMLメタデータとコンパイルされたJavaクラスファイルからのデバッグ情報を組み合わせて、各ミュータントに対応するソース編集をローカライズし、再構築するPITMuSを提案する。
PITMuSは、ソースレベルのバグギーと固定コードペア、ドキュメントコンテキスト、下流トレーニングと評価のためのメタデータを含む構造化データセットを自動的に生成する。
8つのオープンソースJavaシステム上でPITMuSを評価するが、PITMuSを統合可能な任意のJavaシステムに適用できる。
関連論文リスト
- SE-Bench: Benchmarking Self-Evolution with Knowledge Internalization [52.635237306338574]
我々は,NumPyライブラリとそのAPIドキュメントをランダムな識別子を持つ擬似ノーベルパッケージに難読化する診断環境であるSE-Benchを紹介する。
エージェントはこのパッケージを内部化するように訓練され、ドキュメントにアクセスせずに単純なコーディングタスクで評価される。
本研究は,(1)参考資料を用いた学習が保持を阻害するオープンブックパラドックス,(2)知識圧縮を重みに強制する「クローズドブックトレーニング」,(2)標準RLがPPOクリッピングと負の勾配によって新たな知識を完全に内部化するのに失敗するRLギャップ,(3)内部化,証明モデルのためのセルフプレイの実現可能性,の3つの知見を明らかにする。
論文 参考訳(メタデータ) (2026-02-04T17:58:32Z) - Repeton: Structured Bug Repair with ReAct-Guided Patch-and-Test Cycles [1.387448620257867]
大規模言語モデル(LLM)は、コード生成と理解において強力な能力を示しているが、複雑なソフトウェアエンジニアリングタスクへの応用は、しばしば低い精度と限定的な解釈可能性に悩まされている。
実世界のGitの正確かつ自動化されたコード操作にLLMを活用する、完全にオープンソースなフレームワークであるRepetonを紹介します。
論文 参考訳(メタデータ) (2025-06-09T19:36:40Z) - Learning to Generate Unit Tests for Automated Debugging [52.63217175637201]
ユニットテスト(UT)は、コードの正確性を評価するだけでなく、大きな言語モデル(LLM)にフィードバックを提供する上でも重要な役割を果たします。
提案するUTGenは,LLMに対して,予測出力とともにエラーを示す単体テスト入力を生成することを教える。
UTGen は他の LLM ベースラインを7.59% 上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-03T18:51:43Z) - Fix the Tests: Augmenting LLMs to Repair Test Cases with Static Collector and Neural Reranker [9.428021853841296]
本稿では, TROCtxsの精密かつ高精度な構築により, 旧来の検査ケースを自動的に修復する新しい手法であるSynTERを提案する。
構築されたTROCtxの増強により、幻覚は57.1%減少する。
論文 参考訳(メタデータ) (2024-07-04T04:24:43Z) - MMT: Mutation Testing of Java Bytecode with Model Transformation -- An Illustrative Demonstration [0.11470070927586014]
突然変異テストは、テストスイートの堅牢性をチェックするアプローチである。
本稿では,Javaバイトコードの変異をモデル変換によって柔軟に定義できるモデル駆動型アプローチを提案する。
MMTと呼ばれるツールは、オブジェクト指向構造を変更するための高度な突然変異演算子によって拡張されている。
論文 参考訳(メタデータ) (2024-04-22T11:33:21Z) - LLMorpheus: Mutation Testing using Large Language Models [5.448283690603358]
本稿では,プログラムのソースコード内の指定された場所でプレースホルダーを導入する変異検査手法を提案する。
我々はLLMorpheusがStrykerJSでは生成できない既存のバグに似た変異体を生産できると考えている。
論文 参考訳(メタデータ) (2024-04-15T17:25:14Z) - RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic
Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。
RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。
RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文 参考訳(メタデータ) (2023-09-12T08:52:56Z) - Extending the WILDS Benchmark for Unsupervised Adaptation [186.90399201508953]
We present the WILDS 2.0 update, which extends 8 of the 10 datasets in the WILDS benchmark of distribution shifts to include curated unlabeled data。
これらのデータセットは、組織学から野生生物保護まで幅広い応用、タスク(分類、回帰、検出)、モダリティにまたがる。
ドメイン不変量や自己学習,自己管理など,ラベルのないデータを活用する最先端の手法を体系的にベンチマークする。
論文 参考訳(メタデータ) (2021-12-09T18:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。