Fugu-MT 論文翻訳(概要): Metamorphic Coverage

論文の概要: Metamorphic Coverage

arxiv url: http://arxiv.org/abs/2508.16307v1
Date: Fri, 22 Aug 2025 11:32:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-25 16:42:36.368815
Title: Metamorphic Coverage
Title（参考訳）: 変成被覆
Authors: Jinsheng Ba, Yuancheng Jiang, Manuel Rigger,
Abstract要約: テスト入力のペアによって実行される異なるコードを調べるためのカバレッジ指標であるメタモルフィックカバレッジ(MC)を提案する。 MCは試験方法の有効性の区別においてラインカバレッジよりも4倍敏感である。 MCは41%以上のバグを見つけることで、コードカバレッジを著しく上回っている。
参考スコア（独自算出の注目度）: 10.456881328982584
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Metamorphic testing is a widely used methodology that examines an expected relation between pairs of executions to automatically find bugs, such as correctness bugs. We found that code coverage cannot accurately measure the extent to which code is validated and mutation testing is computationally expensive for evaluating metamorphic testing methods. In this work, we propose Metamorphic Coverage (MC), a coverage metric that examines the distinct code executed by pairs of test inputs within metamorphic testing. Our intuition is that, typically, a bug can be observed if the corresponding code is executed when executing either test input but not the other one, so covering more differential code covered by pairs of test inputs might be more likely to expose bugs. While most metamorphic testing methods have been based on this general intuition, our work defines and systematically evaluates MC on five widely used metamorphic testing methods for testing database engines, compilers, and constraint solvers. The code measured by MC overlaps with the bug-fix locations of 50 of 64 bugs found by metamorphic testing methods, and MC has a stronger positive correlation with bug numbers than line coverage. MC is 4x more sensitive than line coverage in distinguishing testing methods' effectiveness, and the average value of MC is 6x smaller than line coverage while still capturing the part of the program that is being tested. MC required 359x less time than mutation testing. Based on a case study for an automated database system testing approach, we demonstrate that when used for feedback guidance, MC significantly outperforms code coverage, by finding 41\% more bugs. Consequently, this work might have broad applications for assessing metamorphic testing methods and improving test-case generation.
Abstract（参考訳）: メタモルフィックテストは、修正バグなどのバグを自動的に見つけるために、実行ペア間の期待される関係を調べるために広く使用されている方法論である。コードカバレッジは、コードの検証範囲を正確に測定することはできず、変異テストは、メタモルフィックなテスト手法を評価するのに計算コストがかかることがわかった。本研究では,メタモルフィックテストにおけるテスト入力のペアによって実行される別個のコードを調べるためのカバレッジ指標であるメタモルフィックカバレッジ(MC)を提案する。私たちの直感では、通常、テストインプットを実行するときに対応するコードが実行されたとしてもバグを観察できるので、テストインプットのペアによってカバーされたより多くの差分コードをカバーすることは、バグを暴露する可能性が高くなるでしょう。ほとんどのメタモルフィック試験法はこの直観に基づいているが、我々の研究は、データベースエンジン、コンパイラ、制約解決器をテストするために広く使われている5つのメタモルフィック試験法についてMCを定義し、体系的に評価している。 MCが測定したコードは、変成試験法で見つかった64のバグのうち50のバグフィックス位置と重なり、MCはラインカバレッジよりもバグ番号と強い正の相関を持つ。 MCは、試験方法の有効性を識別する上で、ラインカバレッジよりも4倍感度が高く、MCの平均値は、テスト中のプログラムの一部をキャプチャしながら、ラインカバレッジの6倍小さい。 MCは変異検査よりも359倍の時間を要した。自動データベースシステムテストアプローチのケーススタディに基づいて、フィードバックガイダンスに使用すると、MCは41倍のバグを見つけ、コードカバレッジを著しく上回ることを示した。したがって、この研究は、変成テスト手法の評価とテストケース生成の改善に幅広い応用をもたらす可能性がある。

関連論文リスト

Impact of Code Context and Prompting Strategies on Automated Unit Test Generation with Modern General-Purpose Large Language Models [0.0]
ジェネレーティブAIは、ソフトウェアエンジニアリングにおいて注目を集めている。単体テストはテストケースの大部分を占め、しばしばスキーマ的である。本稿では,コードコンテキストが単体テストの品質と妥当性に与える影響について検討する。
論文参考訳（メタデータ） (2025-07-18T11:23:17Z)
CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文参考訳（メタデータ） (2025-02-12T21:42:56Z)
TestGenEval: A Real World Unit Test Generation and Test Completion Benchmark [24.14654309612826]
TestGenEvalは、1,210のコードから68,647のテストと、11の保守されたPythonリポジトリにまたがるテストファイルペアで構成されている。初期テストのオーサリング、テストスイートの補完、コードカバレッジの改善をカバーしている。パラメータは7Bから405Bまで様々である。
論文参考訳（メタデータ） (2024-10-01T14:47:05Z)
GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。 GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文参考訳（メタデータ） (2024-02-23T10:02:01Z)
Observation-based unit test generation at Meta [52.4716552057909]
TestGenは、アプリケーション実行中に観察された複雑なオブジェクトのシリアライズされた観察から作られたユニットテストを自動的に生成する。 TestGenは518のテストを本番環境に投入し、継続的統合で9,617,349回実行され、5,702の障害が見つかった。評価の結果,信頼性の高い4,361のエンドツーエンドテストから,少なくとも86%のクラスでテストを生成することができた。
論文参考訳（メタデータ） (2024-02-09T00:34:39Z)
Effective Test Generation Using Pre-trained Large Language Models and Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。 MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文参考訳（メタデータ） (2023-08-31T08:48:31Z)
Domain Adaptation for Code Model-based Unit Test Case Generation [7.147408628963976]
私たちはTransformerベースのコードモデルを利用して、プロジェクトレベルでドメイン適応(DA)の助けを借りて単体テストを生成します。 DAを用いて生成した試験は18.62%,19.88%,18.02%,突然変異スコア16.45%,16.01%,12.99%のラインカバレッジを増大させることができる。
論文参考訳（メタデータ） (2023-08-15T20:48:50Z)
CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。 CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文参考訳（メタデータ） (2022-07-21T10:18:37Z)
Noisy Adaptive Group Testing using Bayesian Sequential Experimental Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文参考訳（メタデータ） (2020-04-26T23:41:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。