論文の概要: Nexus: Execution-Grounded Multi-Agent Test Oracle Synthesis
- arxiv url: http://arxiv.org/abs/2510.26423v1
- Date: Thu, 30 Oct 2025 12:20:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.803948
- Title: Nexus: Execution-Grounded Multi-Agent Test Oracle Synthesis
- Title(参考訳): Nexus: Execution-Grounded Multi-Agent Test Oracle Synthesis
- Authors: Dong Huang, Mingzhe Du, Jie M. Zhang, Zheng Lin, Meng Luo, Qianru Zhang, See-Kiong Ng,
- Abstract要約: 非回帰テストにおけるテストオラクル生成は、ソフトウェア工学における長年の課題である。
この課題に対処するための新しいマルチエージェントフレームワークであるNexusを紹介します。
- 参考スコア(独自算出の注目度): 57.40527331817245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test oracle generation in non-regression testing is a longstanding challenge in software engineering, where the goal is to produce oracles that can accurately determine whether a function under test (FUT) behaves as intended for a given input. In this paper, we introduce Nexus, a novel multi-agent framework to address this challenge. Nexus generates test oracles by leveraging a diverse set of specialized agents that synthesize test oracles through a structured process of deliberation, validation, and iterative self-refinement. During the deliberation phase, a panel of four specialist agents, each embodying a distinct testing philosophy, collaboratively critiques and refines an initial set of test oracles. Then, in the validation phase, Nexus generates a plausible candidate implementation of the FUT and executes the proposed oracles against it in a secure sandbox. For any oracle that fails this execution-based check, Nexus activates an automated selfrefinement loop, using the specific runtime error to debug and correct the oracle before re-validation. Our extensive evaluation on seven diverse benchmarks demonstrates that Nexus consistently and substantially outperforms state-of-theart baselines. For instance, Nexus improves the test-level oracle accuracy on the LiveCodeBench from 46.30% to 57.73% for GPT-4.1-Mini. The improved accuracy also significantly enhances downstream tasks: the bug detection rate of GPT4.1-Mini generated test oracles on HumanEval increases from 90.91% to 95.45% for Nexus compared to baselines, and the success rate of automated program repair improves from 35.23% to 69.32%.
- Abstract(参考訳): 非回帰テストにおけるテストオラクル生成は、ソフトウェア工学における長年の課題であり、テスト対象の関数が与えられた入力に対して意図された振る舞いをするかどうかを正確に判断するオラクルを作成することを目的としている。
本稿では,この課題に対処する新しいマルチエージェントフレームワークであるNexusを紹介する。
Nexusは、熟考、検証、反復的な自己修正という構造化プロセスを通じて、テストオークルを合成するさまざまな特殊エージェントのセットを活用することで、テストオークルを生成する。
審議期間中、4人の専門エージェントからなるパネルは、それぞれ異なるテスト哲学を具現化し、共同で批判し、最初のテストオラクルのセットを洗練する。
そして、検証フェーズにおいて、Nexusは、FUTのもっともらしい候補実装を生成し、セキュアなサンドボックスで、提案したオーラクルを実行する。
この実行ベースのチェックに失敗するオラクルに対して、Nexusは自動的な自己リファインメントループを起動し、特定のランタイムエラーを使用して、再検証前のオラクルをデバッグし、修正する。
7つの多種多様なベンチマークに対する我々の広範な評価は、Nexusが一貫して、最先端のベースラインをはるかに上回っていることを示している。
例えば、Nexusは、GPT-4.1-Miniで、LiveCodeBenchのテストレベルのオラクル精度を46.30%から57.73%に改善している。
GPT4.1-Miniが生成したHumanEvalのバグ検出率は、ベースラインに比べてNexusの90.91%から95.45%に増加し、自動プログラム修復の成功率は35.23%から69.32%に向上した。
関連論文リスト
- MIST-RL: Mutation-based Incremental Suite Testing via Reinforcement Learning [19.054149750597933]
MIST-RL (Mutation-based Incremental Suite Testing via Reinforcement Learning) は、"スケーリング・バイ・ユーティリティ(scaling-by-utility)"に重点を移すフレームワークである。
我々は,機能的に等価なアサーションを抑えながら,新たな欠陥を発見するモデルにインセンティブを与える,動的ペナルティと組み合わされた新たなインクリメンタル突然変異報酬を導入する。
HumanEval+とMBPP+の実験は、MIST-RLが最先端のベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2026-03-02T03:22:44Z) - Outrunning LLM Cutoffs: A Live Kernel Crash Resolution Benchmark for All [57.23434868678603]
Live-kBenchは、新たに発見されたカーネルバグのエージェントをスクラップし、評価するセルフ進化ベンチマークの評価フレームワークである。
kEnvは、カーネルのコンパイル、実行、フィードバックのためのエージェントに依存しないクラッシュ解決環境である。
kEnvを用いて3つの最先端エージェントをベンチマークし、最初の試行で74%のクラッシュを解決したことを示す。
論文 参考訳(メタデータ) (2026-02-02T19:06:15Z) - Can We Predict Before Executing Machine Learning Agents? [74.39460101251792]
データ中心のソリューション優先のタスクを形式化し、18,438対比較の包括的コーパスを構築する。
検証データ解析レポートを作成した場合, LLM は重要な予測能力を示すことを示す。
このフレームワークをForEAGENT(Predict-then-Verifyループを利用するエージェント)でインスタンス化し、実行ベースラインを+6%超えながらコンバージェンスを6倍高速化する。
論文 参考訳(メタデータ) (2026-01-09T16:44:17Z) - Hallucination to Consensus: Multi-Agent LLMs for End-to-End Test Generation [2.794277194464204]
ユニットテストは、ソフトウェアの正しさを保証する上で重要な役割を担います。
従来の手法は、高いコードカバレッジを達成するために、検索ベースまたはランダム化アルゴリズムに依存していた。
CANDORはJavaにおける自動単体テスト生成のための新しいプロンプトエンジニアリングベースのLLMフレームワークである。
論文 参考訳(メタデータ) (2025-06-03T14:43:05Z) - Eliminating Hallucination-Induced Errors in LLM Code Generation with Functional Clustering [0.0]
機能的クラスタリング(Functional Clustering, ブラックボックスラッパー)は, 覚醒によるほとんどすべてのエラーを排除し, 調整可能な信頼スコアを提供する。
我々の検証は、解決可能なタスクのベースラインパス@1を保存するが、返却された回答のエラー率を65%から2%に下げる。
このメソッドはサンプリングとサンドボックスの実行のみを必要とするため、クローズドソースAPIや将来のモデルには適用されない。
論文 参考訳(メタデータ) (2025-05-16T18:19:38Z) - Learning to Generate Unit Tests for Automated Debugging [52.63217175637201]
ユニットテスト(UT)は、コードの正確性を評価するだけでなく、大きな言語モデル(LLM)にフィードバックを提供する上でも重要な役割を果たします。
提案するUTGenは,LLMに対して,予測出力とともにエラーを示す単体テスト入力を生成することを教える。
UTGen は他の LLM ベースラインを7.59% 上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-03T18:51:43Z) - AugmenTest: Enhancing Tests with LLM-Driven Oracles [2.159639193866661]
AugmenTestは、大規模な言語モデルを活用して、テスト中のソフトウェアの利用可能なドキュメントに基づいて、正しいオーラクルを推測するアプローチである。
AugmenTestには4つのバリエーションがある: Simple Prompt、Extended Prompt、ジェネリックプロンプト付きRAG(テスト中のクラスやメソッドのコンテキストなしで)とSimple Prompt付きRAG。
結果は、最も保守的なシナリオでは、AugmenTestのExtended PromptがSimple Promptを一貫して上回り、正しいアサーションを生成するために30%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-01-29T07:45:41Z) - TOGLL: Correct and Strong Test Oracle Generation with LLMs [0.8057006406834466]
テストオラクルはソフトウェアテストにおいて重要な役割を担い、効果的なバグ検出を可能にします。
初期の約束にもかかわらず、自動テストオラクル生成のための神経ベースの手法は、しばしば多数の偽陽性をもたらす。
本研究は,LLMの正当性,多種多様性,強靭性テストオラクルの創出能力に関する総合的研究である。
論文 参考訳(メタデータ) (2024-05-06T18:37:35Z) - Towards Automatic Generation of Amplified Regression Test Oracles [44.45138073080198]
回帰テストオラクルを増幅するためのテストオラクル導出手法を提案する。
このアプローチはテスト実行中にオブジェクトの状態を監視し、以前のバージョンと比較して、SUTの意図した振る舞いに関連する変更を検出する。
論文 参考訳(メタデータ) (2023-07-28T12:38:44Z) - Sequential Kernelized Independence Testing [77.237958592189]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。
シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2022-12-14T18:08:42Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。