論文の概要: ConCovUp: Effective Agent-Based Test Driver Generation for Concurrency Testing
- arxiv url: http://arxiv.org/abs/2605.09573v1
- Date: Sun, 10 May 2026 14:37:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.317662
- Title: ConCovUp: Effective Agent-Based Test Driver Generation for Concurrency Testing
- Title(参考訳): ConCovUp: 並行テストに有効なエージェントベースのテストドライバ生成
- Authors: Yuandao Cai, Shuhao Fu, Wensheng Tang, Cheng Wen, Shengchao Qin, Charles Zhang,
- Abstract要約: 本稿では,言語モデルとプログラム解析を組み合わせたマルチエージェントフレームワークConCovUpを提案する。
ハード・ツー・リーチアクセスをトリガーするために、LSM駆動の後方トレースアプローチを導入した。
9つの現実世界のC/C++ライブラリに対する評価は、ConCovUpが平均共有メモリアクセスペアカバレッジ(SMAPカバレッジ)を36.6%から68.1%に改善したことを示している。
- 参考スコア(独自算出の注目度): 11.483390263182981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Concurrency testing is essential to improve the reliability and security of multi-threaded programs. Dynamic analysis tools, such as TSan, depend on high-quality test drivers that reach critical shared-memory interactions at runtime. However, current testing practices predominantly focus on sequential logic, leaving a gap in automated concurrent test generation. Recently, large language models (LLMs) have shown promise in generating sequential tests, but they struggle to produce effective concurrent tests without a deep understanding of concurrency semantics. This paper presents ConCovUp, a multi-agent framework that combines LLMs with program analysis. ConCovUp grounds test generation in static analysis to extract shared memory accesses and their calling contexts. To trigger hard-to-reach accesses, it introduces an LLM-driven backward tracing approach, leveraging the model's semantic reasoning to deduce concrete inputs that satisfy complex path constraints, and iteratively refines the generated tests via dynamic execution feedback. Our evaluation on nine real-world C/C++ libraries shows that ConCovUp improves average Shared Memory Access Pair Coverage (SMAP Coverage) from 36.6% to 68.1% over the general Claude Code agent baseline.
- Abstract(参考訳): 並行性テストは、マルチスレッドプログラムの信頼性とセキュリティを向上させるために不可欠である。
TSanのような動的解析ツールは、実行時に重要な共有メモリインタラクションに到達する高品質のテストドライバに依存します。
しかしながら、現在のテストプラクティスはシーケンシャルなロジックに重点を置いており、自動並行テスト生成のギャップを残している。
近年,大規模言語モデル (LLM) は逐次テストの生成を約束しているが,並行処理のセマンティクスを深く理解せずに効果的な並行テストを生成するのに苦慮している。
本稿では,LLMとプログラム解析を組み合わせたマルチエージェントフレームワークであるConCovUpを提案する。
ConCovUpは静的解析でテスト生成を基盤として、共有メモリアクセスとその呼び出しコンテキストを抽出する。
ハード・ツー・リーチアクセスを起動するために、LCM駆動の後方トレースアプローチを導入し、モデルの意味論的推論を利用して複雑なパス制約を満たす具体的な入力を推論し、動的に実行フィードバックによって生成されたテストを反復的に洗練する。
9つの現実世界のC/C++ライブラリに対する評価では、ConCovUpは、一般的なClaude Codeエージェントのベースラインよりも36.6%から68.1%まで、平均的な共有メモリアクセスペアカバレッジ(SMAPカバレッジ)を改善している。
関連論文リスト
- Enhancing LLM-Based Test Generation by Eliminating Covered Code [2.2566909388480743]
大規模言語モデル(LLM)は、テスト生成を改善することを約束している。
スケーラブルなLLMベースの単体テスト生成法を提案する。
提案手法は,最先端のLCM法および検索法より優れている。
論文 参考訳(メタデータ) (2026-02-25T15:16:43Z) - Scaling Agentic Verifier for Competitive Coding [66.11758166379092]
大規模言語モデル(LLM)は強力なコーディング能力を示しているが、1回の試行で競合するプログラミング問題を正しく解くのに苦戦している。
実行ベースの再ランク付けは、有望なテスト時間スケーリング戦略を提供するが、既存のメソッドは、難しいテストケースの生成または非効率的なランダム入力サンプリングによって制約される。
本稿では,プログラムの動作を積極的に推論し,高い差別性のあるテスト入力を検索するエージェント検証手法を提案する。
論文 参考訳(メタデータ) (2026-02-04T06:30:40Z) - RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - InspectCoder: Dynamic Analysis-Enabled Self Repair through interactive LLM-Debugger Collaboration [71.18377595277018]
大きな言語モデル(LLM)は、診断が難しい複雑なロジックエラーを伴うバグの多いコードを生成することが多い。
対話型デバッガ制御による動的解析を LLM に委ねる初のエージェントプログラム修復システムである InspectCoder を提案する。
論文 参考訳(メタデータ) (2025-10-21T06:26:29Z) - Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。
その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。
本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文 参考訳(メタデータ) (2025-08-28T13:00:28Z) - Alignment with Fill-In-the-Middle for Enhancing Code Generation [56.791415642365415]
コードスニペットを小さな粒度のブロックに分割し,同じテストケースからより多様なDPOペアを生成する手法を提案する。
提案手法は,HumanEval (+), MBPP (+), APPS, LiveCodeBench, BigCodeBenchといったベンチマークデータセットの実験によって検証された,コード生成タスクの大幅な改善を示す。
論文 参考訳(メタデータ) (2025-08-27T03:15:53Z) - PALM: Synergizing Program Analysis and LLMs to Enhance Rust Unit Test Coverage [14.702182387149547]
本稿では,大規模言語モデル(LLM)を活用して高カバレッジ単体テストを生成する手法であるPALMを提案する。
PALMはプログラム解析を行い、関数内の分岐条件を特定し、それを経路制約に結合する。
このアプローチを実装し、それを15のオープンソースのRustクラッドで評価します。
論文 参考訳(メタデータ) (2025-06-10T17:21:21Z) - TestForge: Feedback-Driven, Agentic Test Suite Generation [7.288137795439405]
TestForgeは、現実世界のコードのための高品質なテストスイートをコスト効率よく生成するように設計されたエージェントユニットテスティングフレームワークである。
TestForgeは、最先端の検索ベースの技術と比較して、より自然で理解しやすいテストを生成する。
論文 参考訳(メタデータ) (2025-03-18T20:21:44Z) - LLM Test Generation via Iterative Hybrid Program Analysis [3.511540973608371]
Pantaは、コードを分析し、テストケースを構築する際に、人間が従う反復的なプロセスをエミュレートするテクニックである。
オープンソースプロジェクトのサイクロマティックな複雑性の高いクラスで実施した経験的評価は,Pantaが26%,ブランチカバレッジが23%向上したことを示す。
論文 参考訳(メタデータ) (2025-03-17T16:10:38Z) - Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。
エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。
Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文 参考訳(メタデータ) (2024-12-02T18:11:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。