Fugu-MT 論文翻訳(概要): Consistency Meets Verification: Enhancing Test Generation Quality in Large Language Models Without Ground-Truth Solutions

論文の概要: Consistency Meets Verification: Enhancing Test Generation Quality in Large Language Models Without Ground-Truth Solutions

arxiv url: http://arxiv.org/abs/2602.10522v1
Date: Wed, 11 Feb 2026 04:40:38 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-12 21:44:01.470376
Title: Consistency Meets Verification: Enhancing Test Generation Quality in Large Language Models Without Ground-Truth Solutions
Title（参考訳）: Consistency Meets Verification: ゼロトルースソリューションのない大規模言語モデルにおけるテスト生成品質向上
Authors: Hamed Taherkhani, Alireza DaghighFarsoodeh, Mohammad Chowdhury, Hung Viet Pham, Hadi Hemmati,
Abstract要約: ConVerTestは、既存のコード実装を必要とせず、信頼性の高いテストを合成するための、新しい2段階のパイプラインである。 BIGCODEBENCHとLESS BASIC PYTHON PROBLEMSベンチマークの実験では、ConVerTestはテストの妥当性、ラインカバレッジ、突然変異スコアを最大39%、28%、18%改善している。
参考スコア（独自算出の注目度）: 1.9196411948992402
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large Language Models (LLMs) have significantly advanced automated test generation, yet existing methods often rely on ground-truth code for verification, risking bug propagation and limiting applicability in test-driven development. We present ConVerTest, a novel two-stage pipeline for synthesizing reliable tests without requiring prior code implementations. ConVerTest integrates three core strategies: (i) Self-Consistency(SC) to generate convergent test cases via majority voting; (ii) Chain-of-Verification (CoVe) for iterative, reasoning-guided code refinement; and (iii) a Dual Execution Agreement to crossvalidate code and tests through consensus. Experiments on BIGCODEBENCH and LESS BASIC PYTHON PROBLEMS (LBPP) benchmarks demonstrate that ConVerTest improves test validity, line coverage, and mutation scores by up to 39%, 28%, and 18% respectively over baselines. Our findings highlight ConVerTest as a robust solution for mitigating hallucinations and enhancing the reliability of autonomous software testing agents.
Abstract（参考訳）: 大規模言語モデル(LLM)は、かなり高度な自動テスト生成を持つが、既存のメソッドは、検証やバグの伝播のリスク、テスト駆動開発における適用可能性の制限など、地道なコードに依存していることが多い。 ConVerTestは、既存のコード実装を必要とせず、信頼性の高いテストを合成するための、新しい2段階のパイプラインである。 ConVerTestは3つのコア戦略を統合している。一多数決により収束試験事件を発生させる自己整合性(SC) (二)反復的、推論誘導コードの改良のための確認の連鎖(CoVe)及び三コード及び試験をコンセンサスを介して相互に検証するための二重執行協定 BIGCODEBENCH と LESS BASIC PYTHON PROBLEMS (LBPP) のベンチマーク実験により、ConVerTest は試験妥当性、ラインカバレッジ、突然変異スコアをそれぞれ39%、28%、および18%改善することが示された。この結果から,ConVerTestは幻覚を緩和し,自律型ソフトウェアテストエージェントの信頼性を高めるための堅牢なソリューションであることがわかった。

関連論文リスト

Scaling Agentic Verifier for Competitive Coding [66.11758166379092]
大規模言語モデル(LLM)は強力なコーディング能力を示しているが、1回の試行で競合するプログラミング問題を正しく解くのに苦戦している。実行ベースの再ランク付けは、有望なテスト時間スケーリング戦略を提供するが、既存のメソッドは、難しいテストケースの生成または非効率的なランダム入力サンプリングによって制約される。本稿では,プログラムの動作を積極的に推論し,高い差別性のあるテスト入力を検索するエージェント検証手法を提案する。
論文参考訳（メタデータ） (2026-02-04T06:30:40Z)
CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文参考訳（メタデータ） (2026-01-30T10:33:29Z)
TENET: Leveraging Tests Beyond Validation for Code Generation [15.74797688806215]
テスト駆動開発(TDD、Test-Driven Development)は、開発者がコード実装と一緒にテストを作成し実行する必要がある、広く採用されているソフトウェア工学のプラクティスである。本稿では、TDD設定の下で複雑な現実世界のリポジトリで関数を生成するエージェントTENETを紹介する。 TENETはRepoCodとRepoEvalのベンチマークで69.08%と81.77%のPass@1を達成した。
論文参考訳（メタデータ） (2025-09-29T00:53:16Z)
Klear-CodeTest: Scalable Test Case Generation for Code Reinforcement Learning [43.30900834053253]
Klear-CodeTestは、厳密な検証機能を備えた総合的なテストケース合成フレームワークで、テストケースの品質と信頼性を保証する。提案したG-Vフレームワークは,正規ケースとコーナーケースの両方を含む総合的なテストケースを生成し,テストカバレッジと解の正当性評価のための識別力を向上させる。さらに,オンライン検証プラットフォームに最適化された多層セキュリティサンドボックスシステムを設計し,安全で信頼性の高いコード実行を保証する。
論文参考訳（メタデータ） (2025-08-07T07:36:01Z)
Intention-Driven Generation of Project-Specific Test Cases [45.2380093475221]
検証意図の記述からプロジェクト固有のテストを生成するIntentionTestを提案する。 13のオープンソースプロジェクトから4,146件のテストケースで,最先端のベースライン(DA, ChatTester, EvoSuite)に対してIntentionTestを広範囲に評価した。
論文参考訳（メタデータ） (2025-07-28T08:35:04Z)
KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding [49.56049319037421]
KodCodeは、高品質で検証可能なトレーニングデータを取得するという永続的な課題に対処する、合成データセットである。自己検証手順によって体系的に検証される質問解決テスト三つ子を含む。このパイプラインは大規模で堅牢で多様なコーディングデータセットを生成する。
論文参考訳（メタデータ） (2025-03-04T19:17:36Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
TestGenEval: A Real World Unit Test Generation and Test Completion Benchmark [24.14654309612826]
TestGenEvalは、1,210のコードから68,647のテストと、11の保守されたPythonリポジトリにまたがるテストファイルペアで構成されている。初期テストのオーサリング、テストスイートの補完、コードカバレッジの改善をカバーしている。パラメータは7Bから405Bまで様々である。
論文参考訳（メタデータ） (2024-10-01T14:47:05Z)
TestART: Improving LLM-based Unit Testing via Co-evolution of Automated Generation and Repair Iteration [7.509927117191286]
大規模言語モデル(LLM)は、単体テストケースを生成する際、顕著な能力を示した。本研究では,新しい単体テスト生成法であるTestARTを提案する。 TestARTは、自動生成と修復の反復の共進化を通じて、LLMベースのユニットテストを改善している。
論文参考訳（メタデータ） (2024-08-06T10:52:41Z)
CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。 CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文参考訳（メタデータ） (2022-07-21T10:18:37Z)
Hybrid Intelligent Testing in Simulation-Based Verification [0.0]
数百万のテストは、カバレッジの目標を達成するために必要かもしれない。カバレッジ指向のテスト選択は、カバレッジフィードバックからバイアステストまで、最も効果的なテストへと学習する。ノベルティ駆動検証は、以前の刺激とは異なる刺激を識別し、シミュレートすることを学ぶ。
論文参考訳（メタデータ） (2022-05-19T13:22:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。