論文の概要: Assertion Messages with Large Language Models (LLMs) for Code
- arxiv url: http://arxiv.org/abs/2509.19673v1
- Date: Wed, 24 Sep 2025 01:13:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.651436
- Title: Assertion Messages with Large Language Models (LLMs) for Code
- Title(参考訳): コードのための大言語モデル(LLM)によるテンプレートメッセージ
- Authors: Ahmed Aljohani, Anamul Haque Mollah, Hyunsook Do,
- Abstract要約: 開発者が記述したアサーションメッセージを含む216個のJavaテストメソッドのデータセット上で,4つの最先端のFill-in-the-Middle (FIM) LLMの評価を導入する。
Codestral-22Bは,手書きメッセージの3.24に比べて,人間的な評価手法を用いて,5点中2.76点の最高品質を達成している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assertion messages significantly enhance unit tests by clearly explaining the reasons behind test failures, yet they are frequently omitted by developers and automated test-generation tools. Despite recent advancements, Large Language Models (LLMs) have not been systematically evaluated for their ability to generate informative assertion messages. In this paper, we introduce an evaluation of four state-of-the-art Fill-in-the-Middle (FIM) LLMs - Qwen2.5-Coder-32B, Codestral-22B, CodeLlama-13B, and StarCoder - on a dataset of 216 Java test methods containing developer-written assertion messages. We find that Codestral-22B achieves the highest quality score of 2.76 out of 5 using a human-like evaluation approach, compared to 3.24 for manually written messages. Our ablation study shows that including descriptive test comments further improves Codestral's performance to 2.97, highlighting the critical role of context in generating clear assertion messages. Structural analysis demonstrates that all models frequently replicate developers' preferred linguistic patterns. We discuss the limitations of the selected models and conventional text evaluation metrics in capturing diverse assertion message structures. Our benchmark, evaluation results, and discussions provide an essential foundation for advancing automated, context-aware generation of assertion messages in test code. A replication package is available at https://doi.org/10.5281/zenodo.15293133
- Abstract(参考訳): Assertionメッセージは、テスト失敗の背景にある理由を明確に説明することによって、ユニットテストを大幅に強化するが、開発者や自動テスト生成ツールによってしばしば省略される。
近年の進歩にもかかわらず、Large Language Models (LLM) は、情報的アサーションメッセージを生成する能力について、体系的に評価されていない。
本稿では、開発者が記述したアサーションメッセージを含む216のJavaテストメソッドのデータセット上で、最先端のFill-in-the-Middle (FIM) LLM(Qwen2.5-Coder-32B、Codestral-22B、CodeLlama-13B、StarCoder)の評価を行う。
Codestral-22Bは,手書きメッセージの3.24に比べて,人間的な評価手法を用いて,5点中2.76点の最高品質を達成している。
私たちのアブレーション調査では、記述的なテストコメントを含むと、Codestralのパフォーマンスが2.97に向上し、明確なアサーションメッセージを生成する上でのコンテキストの重要な役割を強調します。
構造解析は、すべてのモデルが開発者の好む言語パターンを頻繁に再現していることを示している。
本稿では,様々なアサーションメッセージ構造を抽出する際の,選択したモデルと従来のテキスト評価指標の限界について論じる。
我々のベンチマーク,評価結果,議論は,テストコードにおけるアサーションメッセージの自動生成の進展に不可欠な基盤を提供する。
レプリケーションパッケージはhttps://doi.org/10.5281/zenodo.15293133で公開されている。
関連論文リスト
- Learning Robust Negation Text Representations [60.23044940174016]
本稿では,テキストエンコーダの否定とヘッジを多種多様なパターンを用いて改善する戦略を提案する。
我々は,一般的なベンチマーク上での競合性能を維持しつつ,否定理解能力の大幅な向上を観察する。
提案手法は LLM に適用可能であり, ネゲーションベンチマークの性能向上に寄与する。
論文 参考訳(メタデータ) (2025-07-17T04:48:54Z) - Understanding and Characterizing Mock Assertions in Unit Tests [12.96550571237691]
その重要性にもかかわらず、モックアサーションは自動テスト生成技術ではめったに考慮されない。
11の人気のあるJavaプロジェクトの4,652のテストケースを分析してみると、特定のメソッド呼び出しの検証にモックアサーションが主に適用されていることが分かります。
モックアサーションは従来のテストアサーションを補完し、望ましい副作用が生成されることを保証します。
論文 参考訳(メタデータ) (2025-03-25T02:35:05Z) - CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。
ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文 参考訳(メタデータ) (2025-02-12T21:42:56Z) - ASSERTIFY: Utilizing Large Language Models to Generate Assertions for Production Code [0.7973214627863593]
プロダクションアサーションは、開発者がコードに関する仮定を検証するのを助けるために、コードに埋め込まれたステートメントである。
静的解析やディープラーニングのような現在のアサーション生成技術は、プロダクションアサーションの生成に関して不足している。
このプレプリントは、LLM(Large Language Models)を活用した自動エンドツーエンドツールであるAssertifyを導入し、エンジニアリングにプロダクションアサーションを生成することで、ギャップに対処する。
論文 参考訳(メタデータ) (2024-11-25T20:52:28Z) - On the Rationale and Use of Assertion Messages in Test Code: Insights from Software Practitioners [10.264620067797798]
単体テストは、一連のテストケースを通じてその振る舞いを検証することによって、ソフトウェアシステムの品質を保証するための重要なプラクティスである。
これらのテストケースの中核となるのはアサーションステートメントであり、それによってソフトウェア実践者がシステムの振る舞いの正しさを検証することができる。
テストケース障害の理解とトラブルシューティングを支援するため、実践者はアサーションステートメントにメッセージ(すなわちアサーションメッセージ)を含めることができる。
論文 参考訳(メタデータ) (2024-08-03T11:13:36Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - SAGA: Summarization-Guided Assert Statement Generation [34.51502565985728]
本稿では,アサート文の自動生成のための新しい要約誘導手法を提案する。
我々は、事前訓練された言語モデルを参照アーキテクチャとして利用し、アサート文生成のタスクでそれを微調整する。
論文 参考訳(メタデータ) (2023-05-24T07:03:21Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - Generating Accurate Assert Statements for Unit Test Cases using
Pretrained Transformers [10.846226514357866]
単体テストは、ソフトウェアテストピラミッドの基礎となる基礎である。
正確で有用なアサーション文を生成することによって、開発者が単体テストケースを書くのを支援するアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-11T19:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。