論文の概要: Mind the Gap: A Readability-Aware Metric for Test Code Complexity
- arxiv url: http://arxiv.org/abs/2506.06764v1
- Date: Sat, 07 Jun 2025 11:16:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.469145
- Title: Mind the Gap: A Readability-Aware Metric for Test Code Complexity
- Title(参考訳): Mind the Gap: テストコードの複雑さに対する可読性を考慮したメトリクス
- Authors: Wendkûuni C. Ouédraogo, Yinghua Li, Xueqi Dang, Xin Zhou, Anil Koyuncu, Jacques Klein, David Lo, Tegawendé F. Bissyandé,
- Abstract要約: 単体テストに適したテスト意識認知複雑度尺度であるCCTRを紹介する。
EvoSuite, GPT-4o, Mistral Large-1024が生成した15,750のテストスイートをDefects4JおよびSF110から350クラスにわたって評価した。
- 参考スコア(独自算出の注目度): 13.258954013620885
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automatically generated unit tests-from search-based tools like EvoSuite or LLMs-vary significantly in structure and readability. Yet most evaluations rely on metrics like Cyclomatic Complexity and Cognitive Complexity, designed for functional code rather than test code. Recent studies have shown that SonarSource's Cognitive Complexity metric assigns near-zero scores to LLM-generated tests, yet its behavior on EvoSuite-generated tests and its applicability to test-specific code structures remain unexplored. We introduce CCTR, a Test-Aware Cognitive Complexity metric tailored for unit tests. CCTR integrates structural and semantic features like assertion density, annotation roles, and test composition patterns-dimensions ignored by traditional complexity models but critical for understanding test code. We evaluate 15,750 test suites generated by EvoSuite, GPT-4o, and Mistral Large-1024 across 350 classes from Defects4J and SF110. Results show CCTR effectively discriminates between structured and fragmented test suites, producing interpretable scores that better reflect developer-perceived effort. By bridging structural analysis and test readability, CCTR provides a foundation for more reliable evaluation and improvement of generated tests. We publicly release all data, prompts, and evaluation scripts to support replication.
- Abstract(参考訳): EvoSuiteやLLMs-varyのような検索ベースのツールから自動生成されたユニットテストは、構造と可読性において著しく向上した。
しかし、ほとんどの評価は、テストコードではなく機能コードのために設計されたCyclomatic ComplexityやCognitive Complexityのようなメトリクスに依存しています。
最近の研究によると、SonarSourceのCognitive Complexity測定では、ほぼゼロに近いスコアをLLM生成テストに割り当てているが、EvoSuite生成テストに対する振る舞いと、テスト固有のコード構造への適用性は未調査のままである。
単体テストに適したテスト意識認知複雑度尺度であるCCTRを紹介する。
CCTRは、アサーション密度、アノテーションの役割、テスト構成パターン-次元といった構造的および意味的特徴を統合するが、テストコードの理解には不可欠である。
EvoSuite, GPT-4o, Mistral Large-1024が生成した15,750のテストスイートをDefects4JおよびSF110から350クラスにわたって評価した。
その結果、CCTRは、構造化されたテストスイートと断片化されたテストスイートを効果的に区別し、開発者の努力を反映した解釈可能なスコアを生成します。
構造解析とテストの可読性をブリッジすることで、CCTRは生成されたテストのより信頼性の高い評価と改善のための基盤を提供する。
レプリケーションをサポートするすべてのデータ、プロンプト、評価スクリプトを公開しています。
関連論文リスト
- Beyond Surface Similarity: Evaluating LLM-Based Test Refactorings with Structural and Semantic Awareness [13.258954013620885]
CTSESは、CodeBLEU、METEOR、ROUGE-Lを統合した複合計量であり、振る舞い、語彙的品質、構造的アライメントのバランスをとる。
我々の結果は、CTSESは既存のメトリクスよりも、開発者の期待と人間の直感に合わせた、より忠実で解釈可能な評価を得られることを示しています。
論文 参考訳(メタデータ) (2025-06-07T11:18:17Z) - Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。
我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。
実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文 参考訳(メタデータ) (2025-02-19T15:32:11Z) - CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。
ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文 参考訳(メタデータ) (2025-02-12T21:42:56Z) - LlamaRestTest: Effective REST API Testing with Small Language Models [50.058600784556816]
LlamaRestTestは、2つのLLM(Large Language Models)を使って現実的なテストインプットを生成する新しいアプローチである。
私たちは、GPTを使った仕様強化ツールであるRESTGPTなど、最先端のREST APIテストツールに対して、これを評価しています。
私たちの研究は、REST APIテストにおいて、小さな言語モデルは、大きな言語モデルと同様に、あるいは、より良く機能することができることを示しています。
論文 参考訳(メタデータ) (2025-01-15T05:51:20Z) - Improving the Readability of Automatically Generated Tests using Large Language Models [7.7149881834358345]
探索型ジェネレータの有効性とLLM生成試験の可読性を組み合わせることを提案する。
提案手法は,検索ツールが生成するテスト名や変数名の改善に重点を置いている。
論文 参考訳(メタデータ) (2024-12-25T09:08:53Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。
エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。
Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文 参考訳(メタデータ) (2024-12-02T18:11:30Z) - Leveraging Large Language Models for Enhancing the Understandability of Generated Unit Tests [4.574205608859157]
我々は,検索ベースのソフトウェアテストと大規模言語モデルを組み合わせたUTGenを導入し,自動生成テストケースの理解性を向上する。
UTGenテストケースで課題に取り組む参加者は、最大33%のバグを修正し、ベースラインテストケースと比較して最大20%の時間を使用できます。
論文 参考訳(メタデータ) (2024-08-21T15:35:34Z) - Prompting Code Interpreter to Write Better Unit Tests on Quixbugs
Functions [0.05657375260432172]
単体テストは、ソフトウェア工学において、記述されたコードの正確性と堅牢性をテストするために一般的に使用されるアプローチである。
本研究では,コードインタプリタが生成する単体テストの品質に及ぼす異なるプロンプトの影響について検討する。
生成した単体テストの品質は、提供されたプロンプトのマイナーな詳細の変更に敏感ではないことがわかった。
論文 参考訳(メタデータ) (2023-09-30T20:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。