論文の概要: Nexus: Execution-Grounded Multi-Agent Test Oracle Synthesis
- arxiv url: http://arxiv.org/abs/2510.26423v1
- Date: Thu, 30 Oct 2025 12:20:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.803948
- Title: Nexus: Execution-Grounded Multi-Agent Test Oracle Synthesis
- Title(参考訳): Nexus: Execution-Grounded Multi-Agent Test Oracle Synthesis
- Authors: Dong Huang, Mingzhe Du, Jie M. Zhang, Zheng Lin, Meng Luo, Qianru Zhang, See-Kiong Ng,
- Abstract要約: 非回帰テストにおけるテストオラクル生成は、ソフトウェア工学における長年の課題である。
この課題に対処するための新しいマルチエージェントフレームワークであるNexusを紹介します。
- 参考スコア(独自算出の注目度): 57.40527331817245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test oracle generation in non-regression testing is a longstanding challenge in software engineering, where the goal is to produce oracles that can accurately determine whether a function under test (FUT) behaves as intended for a given input. In this paper, we introduce Nexus, a novel multi-agent framework to address this challenge. Nexus generates test oracles by leveraging a diverse set of specialized agents that synthesize test oracles through a structured process of deliberation, validation, and iterative self-refinement. During the deliberation phase, a panel of four specialist agents, each embodying a distinct testing philosophy, collaboratively critiques and refines an initial set of test oracles. Then, in the validation phase, Nexus generates a plausible candidate implementation of the FUT and executes the proposed oracles against it in a secure sandbox. For any oracle that fails this execution-based check, Nexus activates an automated selfrefinement loop, using the specific runtime error to debug and correct the oracle before re-validation. Our extensive evaluation on seven diverse benchmarks demonstrates that Nexus consistently and substantially outperforms state-of-theart baselines. For instance, Nexus improves the test-level oracle accuracy on the LiveCodeBench from 46.30% to 57.73% for GPT-4.1-Mini. The improved accuracy also significantly enhances downstream tasks: the bug detection rate of GPT4.1-Mini generated test oracles on HumanEval increases from 90.91% to 95.45% for Nexus compared to baselines, and the success rate of automated program repair improves from 35.23% to 69.32%.
- Abstract(参考訳): 非回帰テストにおけるテストオラクル生成は、ソフトウェア工学における長年の課題であり、テスト対象の関数が与えられた入力に対して意図された振る舞いをするかどうかを正確に判断するオラクルを作成することを目的としている。
本稿では,この課題に対処する新しいマルチエージェントフレームワークであるNexusを紹介する。
Nexusは、熟考、検証、反復的な自己修正という構造化プロセスを通じて、テストオークルを合成するさまざまな特殊エージェントのセットを活用することで、テストオークルを生成する。
審議期間中、4人の専門エージェントからなるパネルは、それぞれ異なるテスト哲学を具現化し、共同で批判し、最初のテストオラクルのセットを洗練する。
そして、検証フェーズにおいて、Nexusは、FUTのもっともらしい候補実装を生成し、セキュアなサンドボックスで、提案したオーラクルを実行する。
この実行ベースのチェックに失敗するオラクルに対して、Nexusは自動的な自己リファインメントループを起動し、特定のランタイムエラーを使用して、再検証前のオラクルをデバッグし、修正する。
7つの多種多様なベンチマークに対する我々の広範な評価は、Nexusが一貫して、最先端のベースラインをはるかに上回っていることを示している。
例えば、Nexusは、GPT-4.1-Miniで、LiveCodeBenchのテストレベルのオラクル精度を46.30%から57.73%に改善している。
GPT4.1-Miniが生成したHumanEvalのバグ検出率は、ベースラインに比べてNexusの90.91%から95.45%に増加し、自動プログラム修復の成功率は35.23%から69.32%に向上した。
関連論文リスト
- Hallucination to Consensus: Multi-Agent LLMs for End-to-End Test Generation [2.794277194464204]
ユニットテストは、ソフトウェアの正しさを保証する上で重要な役割を担います。
従来の手法は、高いコードカバレッジを達成するために、検索ベースまたはランダム化アルゴリズムに依存していた。
CANDORはJavaにおける自動単体テスト生成のための新しいプロンプトエンジニアリングベースのLLMフレームワークである。
論文 参考訳(メタデータ) (2025-06-03T14:43:05Z) - Learning to Generate Unit Tests for Automated Debugging [52.63217175637201]
ユニットテスト(UT)は、コードの正確性を評価するだけでなく、大きな言語モデル(LLM)にフィードバックを提供する上でも重要な役割を果たします。
提案するUTGenは,LLMに対して,予測出力とともにエラーを示す単体テスト入力を生成することを教える。
UTGen は他の LLM ベースラインを7.59% 上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-03T18:51:43Z) - TOGLL: Correct and Strong Test Oracle Generation with LLMs [0.8057006406834466]
テストオラクルはソフトウェアテストにおいて重要な役割を担い、効果的なバグ検出を可能にします。
初期の約束にもかかわらず、自動テストオラクル生成のための神経ベースの手法は、しばしば多数の偽陽性をもたらす。
本研究は,LLMの正当性,多種多様性,強靭性テストオラクルの創出能力に関する総合的研究である。
論文 参考訳(メタデータ) (2024-05-06T18:37:35Z) - Sequential Kernelized Independence Testing [77.237958592189]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。
シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2022-12-14T18:08:42Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。