論文の概要: Clarifying Semantics of In-Context Examples for Unit Test Generation
- arxiv url: http://arxiv.org/abs/2510.01994v1
- Date: Thu, 02 Oct 2025 13:15:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.141423
- Title: Clarifying Semantics of In-Context Examples for Unit Test Generation
- Title(参考訳): 単体テスト生成における文脈例のセマンティクスの解明
- Authors: Chen Yang, Lin Yang, Ziqi Wang, Dong Wang, Jianyi Zhou, Junjie Chen,
- Abstract要約: CLASTは, ユニットテストを体系的に洗練し, セマンティックな明瞭さを向上する手法である。
CLASTは、テストの有効性の維持と意味的明確性の向上の両方において、最先端の洗練技術であるUTgenよりも優れている。
調査対象者の85.33%以上がCLAST精製検査のセマンティックな明瞭さを好んだ。
- 参考スコア(独自算出の注目度): 16.066591207494046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have enabled promising performance in unit test generation through in-context learning (ICL). However, the quality of in-context examples significantly influences the effectiveness of generated tests-poorly structured or semantically unclear test examples often lead to suboptimal outputs. In this paper, we propose CLAST, a novel technique that systematically refines unit tests to improve their semantic clarity, thereby enhancing their utility as in-context examples. The approach decomposes complex tests into logically clearer ones and improves semantic clarity through a combination of program analysis and LLM-based rewriting. We evaluated CLAST on four open-source and three industrial projects. The results demonstrate that CLAST largely outperforms UTgen, the state-of-the-art refinement technique, in both preserving test effectiveness and enhancing semantic clarity. Specifically, CLAST fully retains the original effectiveness of unit tests, while UTgen reduces compilation success rate (CSR), pass rate (PR), test coverage (Cov), and mutation score (MS) by an average of 12.90%, 35.82%, 4.65%, and 5.07%, respectively. Over 85.33% of participants in our user study preferred the semantic clarity of CLAST-refined tests. Notably, incorporating CLAST-refined tests as examples effectively improves ICL-based unit test generation approaches such as RAGGen and TELPA, resulting in an average increase of 25.97% in CSR, 28.22% in PR, and 45.99% in Cov for generated tests, compared to incorporating UTgen-refined tests. The insights from the follow-up user study not only reinforce CLAST's potential impact in software testing practice but also illuminate avenues for future research.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、文脈内学習(ICL)による単体テスト生成において有望な性能を実現している。
しかし、文脈内サンプルの品質は、生成したテストの有効性に大きな影響を及ぼす。
本稿では,その意味的明瞭度を向上させるために,ユニットテストを体系的に洗練する新しい手法であるCLASTを提案する。
このアプローチは複雑なテストを論理的に明確なものに分解し、プログラム解析とLLMベースの書き換えを組み合わせることで意味的明確性を向上させる。
CLASTを4つのオープンソースプロジェクトと3つの産業プロジェクトで評価した。
その結果、CLASTはテストの有効性の維持と意味的明確性の向上の両面で、最先端の洗練技術であるUTgenを大きく上回っていることが明らかとなった。
具体的には、CLASTは単体テストの本来の有効性を完全に保持し、UTgenはコンパイル成功率(CSR)、通過率(PR)、テストカバレッジ(Cov)、突然変異スコア(MS)をそれぞれ平均12.90%、35.82%、4.65%、および5.07%で減少させる。
調査対象者の85.33%以上がCLAST精製検査のセマンティックな明瞭さを好んだ。
特に、CLAST-refinedテストを例として組み込むことで、RAGGenやTELPAのようなICLベースのユニットテスト生成アプローチが効果的に改善され、CSRが25.97%、PRが28.22%、Covが45.99%となる。
フォローアップユーザ調査から得られた洞察は、CLASTがソフトウェアテストプラクティスにもたらす潜在的影響を補強するだけでなく、将来の研究の道筋を照らすものでもある。
関連論文リスト
- PALM: Synergizing Program Analysis and LLMs to Enhance Rust Unit Test Coverage [14.702182387149547]
本稿では,大規模言語モデル(LLM)を活用して高カバレッジ単体テストを生成する手法であるPALMを提案する。
PALMはプログラム解析を行い、関数内の分岐条件を特定し、それを経路制約に結合する。
このアプローチを実装し、それを15のオープンソースのRustクラッドで評価します。
論文 参考訳(メタデータ) (2025-06-10T17:21:21Z) - Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。
我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。
実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文 参考訳(メタデータ) (2025-02-19T15:32:11Z) - TAPT: Test-Time Adversarial Prompt Tuning for Robust Inference in Vision-Language Models [53.91006249339802]
視覚的対人攻撃に対するCLIPの推論ロバスト性を高めるため, TAPT(Test-Time Adversarial Prompt Tuning)と呼ばれる新しい防御手法を提案する。
TAPTは、CLIPの推論プロセスを堅牢化するために、防御的バイモーダル(テキストと視覚)のプロンプトを学習するテストタイムディフェンス手法である。
我々は、ImageNetなど10のゼロショットデータセットを含む11のベンチマークデータセットに対するTAPTの有効性を評価する。
論文 参考訳(メタデータ) (2024-11-20T08:58:59Z) - Toward Automated Validation of Language Model Synthesized Test Cases using Semantic Entropy [0.5057850174013127]
現代の大規模言語モデル(LLM)ベースのプログラミングエージェントは、しばしば、生成されたコードを洗練するためにテスト実行フィードバックに依存する。
本稿では,LLMが生成したテストケースの自動検証にセマンティックエントロピーを利用する新しいフレームワークVALTESTを紹介する。
VALTESTはテストの妥当性を最大29%向上し、パス@1スコアの大幅な増加によって証明されたコード生成のパフォーマンスが向上することを示している。
論文 参考訳(メタデータ) (2024-11-13T00:07:32Z) - Active Test-Time Adaptation: Theoretical Analyses and An Algorithm [51.84691955495693]
テスト時間適応(TTA)は、教師なし設定でストリーミングテストデータの分散シフトに対処する。
完全TTA設定内に能動学習を統合する能動テスト時間適応(ATTA)の新たな問題設定を提案する。
論文 参考訳(メタデータ) (2024-04-07T22:31:34Z) - Effective Test Generation Using Pre-trained Large Language Models and
Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。
MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる
提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文 参考訳(メタデータ) (2023-08-31T08:48:31Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。