論文の概要: UnitTenX: Generating Tests for Legacy Packages with AI Agents Powered by Formal Verification
- arxiv url: http://arxiv.org/abs/2510.05441v1
- Date: Mon, 06 Oct 2025 23:08:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.017827
- Title: UnitTenX: Generating Tests for Legacy Packages with AI Agents Powered by Formal Verification
- Title(参考訳): UnitTenX: 形式検証によるAIエージェントによるレガシーパッケージのテスト生成
- Authors: Yiannis Charalambous, Claudionor N. Coelho Jr, Luis Lamb, Lucas C. Cordeiro,
- Abstract要約: UnitTenXは、レガシーコードのユニットテストを生成するように設計された最先端のオープンソースAIマルチエージェントシステムである。
本研究は,高品質なテスト生成と潜在的な問題の同定において,このアプローチの有効性を実証するものである。
- 参考スコア(独自算出の注目度): 1.6592567365278768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces UnitTenX, a state-of-the-art open-source AI multi-agent system designed to generate unit tests for legacy code, enhancing test coverage and critical value testing. UnitTenX leverages a combination of AI agents, formal methods, and Large Language Models (LLMs) to automate test generation, addressing the challenges posed by complex and legacy codebases. Despite the limitations of LLMs in bug detection, UnitTenX offers a robust framework for improving software reliability and maintainability. Our results demonstrate the effectiveness of this approach in generating high-quality tests and identifying potential issues. Additionally, our approach enhances the readability and documentation of legacy code.
- Abstract(参考訳): 本稿では,レガシコードのユニットテストを生成し,テストカバレッジとクリティカルバリューテストを向上させるために設計された,最先端のオープンソースAIマルチエージェントシステムであるUnitTenXを紹介する。
UnitTenXは、AIエージェント、フォーマルメソッド、およびLarge Language Models(LLM)の組み合わせを活用して、テスト生成を自動化する。
バグ検出におけるLLMの制限にもかかわらず、UnitTenXはソフトウェアの信頼性と保守性を改善するための堅牢なフレームワークを提供する。
本研究は,高品質なテスト生成と潜在的な問題の同定において,このアプローチの有効性を実証するものである。
さらに、私たちのアプローチはレガシーコードの可読性とドキュメントも強化します。
関連論文リスト
- Learning to Generate Unit Test via Adversarial Reinforcement Learning [33.82915303652549]
単体テストはプログラミングにおける中核的な実践であり、人間の開発者や大規模言語モデル(LLM)によるプログラムの体系的な評価を可能にする。
プログラム命令を与えられた高品質な単体テストを生成するためにLLMを訓練する新しい強化学習フレームワークであるUTRLを提案する。
実験では, UTRLを用いてトレーニングしたQwen3-4Bが生成した単体テストが, 教師付き微調整によりトレーニングした同一モデルで生成した単体テストと比較して高い品質を示した。
論文 参考訳(メタデータ) (2025-08-28T14:32:44Z) - Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。
その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。
本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文 参考訳(メタデータ) (2025-08-28T13:00:28Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。
エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。
Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文 参考訳(メタデータ) (2024-12-02T18:11:30Z) - SWT-Bench: Testing and Validating Real-World Bug-Fixes with Code Agents [10.730852617039451]
ユーザ問題をテストケースに形式化するLLMベースのコードエージェントについて検討する。
我々は人気のあるGitHubリポジトリに基づいた新しいベンチマークを提案し、現実世界の問題、地味なバグフィックス、ゴールデンテストを含む。
コード修復用に設計されたコードエージェントは,テスト生成用に設計されたシステムの性能を上回っている。
論文 参考訳(メタデータ) (2024-06-18T14:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。