論文の概要: Call-Chain-Aware LLM-Based Test Generation for Java Projects
- arxiv url: http://arxiv.org/abs/2604.22046v1
- Date: Thu, 23 Apr 2026 20:03:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.258472
- Title: Call-Chain-Aware LLM-Based Test Generation for Java Projects
- Title(参考訳): Java プロジェクトのためのコールチェーン対応 LLM ベースのテスト生成
- Authors: Guancheng Wang, Qinghua Xu, Lionel C. Briand, Zhaoqiang Guo, Kui Liu,
- Abstract要約: CATは、コールチェーンと依存性コンテキストをプロンプトに明示的に組み込んだ、コールチェーン対応のテスト生成アプローチです。
我々は、広く使用されているDefects4Jベンチマークと、LLMのカットオフ日後にリリースされた4つの実世界のGitHubプロジェクトでCATを評価した。
その結果、Defects4Jのプロジェクト全体で、CATは最先端のアプローチであるPANTAに対して、それぞれ18.04%、21.74%のラインカバレッジを改善した。
- 参考スコア(独自算出の注目度): 7.5943459078703475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have recently shown strong potential for generating project-level unit tests. However, existing state-of-the-art approaches primarily rely on execution-path information to guide prompt construction, which is often insufficient for complex software systems with rich inter-class dependencies, deep call chains, and intricate object initialization requirements. In this paper, we present CAT, a novel call-chain-aware LLM-based test generation approach that explicitly incorporates call-chain and dependency contexts into prompts through dedicated static analysis. To construct executable, semantically valid test contexts, CAT systematically models caller--callee relationships, object constructors, and third-party dependencies, and supports iterative test fixing when generation failures occur. We evaluate CAT on the widely used Defects4J benchmark and on four real-world GitHub projects released after the LLM's cut-off date. The results show that, across projects in Defects4J, CAT improves line and branch coverage by 18.04% and 21.74%, respectively, over the state-of-the-art approach PANTA, while consistently achieving superior performance on post-cutoff real-world projects. An ablation study further demonstrates the importance of call-chain and dependency contexts in CAT.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近、プロジェクトレベルのユニットテストを生成する強力な可能性を示している。
しかし、既存の最先端のアプローチは、プロンプト構築を誘導するための実行パス情報に主に依存しており、クラス間依存関係の豊富な複雑なソフトウェアシステム、ディープコールチェーン、複雑なオブジェクトの初期化要求にはしばしば不十分である。
本稿では、コールチェーンと依存性コンテキストを専用の静的解析を通じてプロンプトに明示的に組み込む、コールチェーンを意識した新しいLCMベースのテスト生成手法であるCATを提案する。
実行可能で意味論的に有効なテストコンテキストを構築するために、CATは、呼び出し側-キャリー関係、オブジェクトコンストラクタ、サードパーティの依存関係を体系的にモデル化し、生成障害が発生した時に反復的なテスト修正をサポートする。
我々は、広く使用されているDefects4Jベンチマークと、LLMのカットオフ日後にリリースされた4つの実世界のGitHubプロジェクトでCATを評価した。
その結果、Defects4J のプロジェクト全体で CAT は、最先端の PANTA に対して、それぞれ18.04% と 21.74% のラインカバレッジとブランチカバレッジを改善し、カット後の実際のプロジェクトにおいて一貫して優れたパフォーマンスを実現している。
アブレーション研究は、CATにおけるコールチェーンと依存性コンテキストの重要性をさらに示している。
関連論文リスト
- Beyond Code Snippets: Benchmarking LLMs on Repository-Level Question Answering [4.120344028676837]
大規模言語モデル(LLM)は、質問応答(QA)を含む、ソフトウェアエンジニアリングタスク全体で印象的な機能を示している。
StackRepoQAは、134のオープンソースJavaプロジェクト間で、1,318の実際の開発者質問と受け入れられた回答から構築された、最初のマルチプロジェクト、リポジトリレベルの質問応答データセットです。
論文 参考訳(メタデータ) (2026-03-27T16:30:54Z) - The Unlearning Mirage: A Dynamic Framework for Evaluating LLM Unlearning [54.67958855362658]
複雑な構造化クエリを用いたアンラーニングテストを強調する動的フレームワークを提案する。
提案手法はまず,対象モデル(事前学習)から知識を抽出し,単純なクエリからマルチホップチェーンまで,対象プローブを構築する。
本フレームワークは,テストセットを手作業で構築することなく,非学習手法の実用的でスケーラブルな評価を可能にする。
論文 参考訳(メタデータ) (2026-03-11T19:51:33Z) - SPARC: Scenario Planning and Reasoning for Automated C Unit Test Generation [1.0010193170880752]
本稿では,高レベルのプログラム意図とポインタ演算と手動メモリ管理の厳密な構文制約とのギャップを埋める,ニューロシンボリックなシナリオベースのフレームワークを提案する。
我々は、59の現実世界およびアルゴリズムの被験者で評価し、バニラプロンプト生成ベースラインを31.36%、分岐カバレッジ26.01%、突然変異スコア20.78%で上回り、シンボリック実行ツールKLEEに適合または超えている。
論文 参考訳(メタデータ) (2026-02-18T18:09:03Z) - LLM-guided Hierarchical Retrieval [54.73080745446999]
LATTICEは階層的な検索フレームワークであり、LLMは対数探索の複雑さで大きなコーパスを推論し、ナビゲートすることができる。
LLM誘導探索における中心的な課題は、モデルの関連性判断がノイズが多く、文脈に依存し、階層性に気付かないことである。
我々のフレームワークは、推論集約型BRIGHTベンチマークで最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-10-15T07:05:17Z) - Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。
その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。
本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文 参考訳(メタデータ) (2025-08-28T13:00:28Z) - SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-05-29T18:28:02Z) - DI-BENCH: Benchmarking Large Language Models on Dependency Inference with Testable Repositories at Scale [39.92722886613929]
DI-BENCHは、大規模言語モデルの依存性推論能力を評価するために設計された、大規模なベンチマークおよび評価フレームワークである。
ベンチマークでは、Python、C#、Rust、JavaScriptにまたがるテスト環境を備えた581のリポジトリが提供されている。
テキストと実行ベースのメトリクスによる大規模な実験により、現在の最高のパフォーマンスモデルは42.9%の実行パス率しか達成していないことが明らかになった。
論文 参考訳(メタデータ) (2025-01-23T14:27:11Z) - Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。
エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。
Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文 参考訳(メタデータ) (2024-12-02T18:11:30Z) - Advancing Code Coverage: Incorporating Program Analysis with Large Language Models [8.31978033489419]
難解な分岐に到達可能なテストを生成する新しい技術である TELPA を提案する。
27のオープンソースPythonプロジェクトに対する実験結果から,TELPAは最先端のSBSTやLLMベースの技術よりも優れていたことが判明した。
論文 参考訳(メタデータ) (2024-04-07T14:08:28Z) - Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM [32.44432906540792]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。
SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。
特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。
論文 参考訳(メタデータ) (2024-01-31T18:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。