論文の概要: Assertion-Aware Test Code Summarization with Large Language Models
- arxiv url: http://arxiv.org/abs/2511.06227v1
- Date: Sun, 09 Nov 2025 04:58:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.822753
- Title: Assertion-Aware Test Code Summarization with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたアクセレーションを考慮したテストコード要約
- Authors: Anamul Haque Mollah, Ahmed Aljohani, Hyunsook Do,
- Abstract要約: 単体テストは、テスト意図を伝える簡潔な要約を欠くことが多い。
本稿では,開発者による要約と組み合わせた実世界のJavaテストケース91のベンチマークを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unit tests often lack concise summaries that convey test intent, especially in auto-generated or poorly documented codebases. Large Language Models (LLMs) offer a promising solution, but their effectiveness depends heavily on how they are prompted. Unlike generic code summarization, test-code summarization poses distinct challenges because test methods validate expected behavior through assertions rather than im- plementing functionality. This paper presents a new benchmark of 91 real-world Java test cases paired with developer-written summaries and conducts a controlled ablation study to investigate how test code-related components-such as the method under test (MUT), assertion messages, and assertion semantics-affect the performance of LLM-generated test summaries. We evaluate four code LLMs (Codex, Codestral, DeepSeek, and Qwen-Coder) across seven prompt configurations using n-gram metrics (BLEU, ROUGE-L, METEOR), semantic similarity (BERTScore), and LLM-based evaluation. Results show that prompting with as- sertion semantics improves summary quality by an average of 0.10 points (2.3%) over full MUT context (4.45 vs. 4.35) while requiring fewer input tokens. Codex and Qwen-Coder achieve the highest alignment with human-written summaries, while DeepSeek underperforms despite high lexical overlap. The replication package is publicly available at https://doi.org/10. 5281/zenodo.17067550
- Abstract(参考訳): ユニットテストは、テスト意図を伝える簡潔な要約を欠くことが多い。
大きな言語モデル(LLM)は有望なソリューションを提供するが、その効果はどのように引き起こされるかに大きく依存する。
一般的なコード要約とは異なり、テストコードの要約は、テストメソッドがアサーションを通じて期待された振る舞いを検証するので、異なる課題を引き起こす。
本稿では,開発者による要約と組み合わせた実世界のJavaテストケース91のベンチマークを新たに提案し,テスト対象のメソッド(MUT)やアサーションメッセージ,アサーションセマンティクスなどのコード関連コンポーネントが,LCM生成したテストサマリのパフォーマンスに与える影響について検討する。
我々は、n-gramメトリック(BLEU、ROUGE-L、METEOR)、意味的類似性(BERTScore)、LLMベースの評価を用いて、7つのプロンプト構成で4つのLLM(Codex、Codestral、DeepSeek、Qwen-Coder)を評価した。
その結果、 As-Sertion のセマンティクスにより、完全な MUT コンテキスト (4.45 vs. 4.35) よりも平均 0.10 ポイント (2.3%) の要約品質が向上し、少ない入力トークンが要求されることがわかった。
CodexとQwen-Coderは人書きの要約と最高のアライメントを達成する一方、DeepSeekは語彙の重複が高いにもかかわらずパフォーマンスが劣る。
レプリケーションパッケージはhttps://doi.org/10.comで公開されている。
5281/禅堂.17067550
関連論文リスト
- Assertion Messages with Large Language Models (LLMs) for Code [0.0]
開発者が記述したアサーションメッセージを含む216個のJavaテストメソッドのデータセット上で,4つの最先端のFill-in-the-Middle (FIM) LLMの評価を導入する。
Codestral-22Bは,手書きメッセージの3.24に比べて,人間的な評価手法を用いて,5点中2.76点の最高品質を達成している。
論文 参考訳(メタデータ) (2025-09-24T01:13:08Z) - CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。
ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文 参考訳(メタデータ) (2025-02-12T21:42:56Z) - Disproving Program Equivalence with LLMs [22.047880121762013]
ProbeGenは、2つ以上の実行可能なコードと、その等価性に対する反例を検索するホワイトボックスメソッドである。
ProbeGenは、ベンチマークによる単体テストにより、基礎的真理と等価であると考えられるサンプルの18%を反証することを示した。
ProbeGenを使うことで、意味的な自己整合性のためにLLMサンプルをセマンティックにクラスタリングし、pass@1を10%改善できます。
論文 参考訳(メタデータ) (2025-02-05T12:54:17Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Large Language Models as Test Case Generators: Performance Evaluation and Enhancement [3.5398126682962587]
大規模言語モデルが高品質なテストケースをいかに生み出すかを検討する。
本稿では,テストインプットとテストアウトプットの生成を分離するemphTestChainというマルチエージェントフレームワークを提案する。
以上の結果から,TestChainはベースラインのマージンを大きく上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-04-20T10:27:01Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。