論文の概要: ACES: Who Tests the Tests? Leave-One-Out AUC Consistency for Code Generation
- arxiv url: http://arxiv.org/abs/2604.03922v1
- Date: Sun, 05 Apr 2026 01:15:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.834725
- Title: ACES: Who Tests the Tests? Leave-One-Out AUC Consistency for Code Generation
- Title(参考訳): ACES: テストは誰が行うか? コード生成のための1つのAUC一貫性
- Authors: Hui Sun, Yun-Ji Zhang, Zheng Xie, Ren-Biao Liu, Yali Du, Xin-Ye Li, Ming Li,
- Abstract要約: textbfACES(textbfAUC textbfConsisttextbfEncy textbfScoring)
textbfACES(textbfAUC textbfConsisttextbfEncy textbfScoring)
textbfACES(textbfAUC textbfAUC textbfScoring)
- 参考スコア(独自算出の注目度): 18.62997645875489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Selecting LLM-generated code candidates using LLM-generated tests is challenging because the tests themselves may be incorrect. Existing methods either treat all tests equally or rely on ad-hoc heuristics to filter unreliable tests. Yet determining test correctness requires knowing which codes are correct, creating a \emph{circular dependency}. Our key insight is that we need not determine test correctness at all: \emph{test votes should rank, not merely count}. What matters is not how many codes pass a test, but whether the test can \emph{distinguish} correct from incorrect code. We break the circular dependency via leave-one-out evaluation: hold out one test, rank codes by their aggregate scores on all remaining tests, and measure whether the held-out test's pass/fail pattern agrees with this ranking. We formalize this agreement as the leave-one-out AUC~(LOO-AUC) and prove that the expected LOO-AUC is proportional to each test's ability to separate correct code from incorrect code. Building on this, we propose \textbf{ACES}~(\textbf{A}UC \textbf{C}onsist\textbf{E}ncy \textbf{S}coring) with two complementary variants: ACES-C provides closed-form weights that provably approximate the oracle in expectation under a mild assumption on average test quality; ACES-O drops this assumption and iteratively optimizes a differentiable LOO-AUC objective. Both operate solely on the binary pass matrix with negligible overhead, and achieve state-of-the-art Pass@$k$ on multiple code generation benchmarks.
- Abstract(参考訳): LLM生成テストを使用してLLM生成コード候補を選択することは、テスト自体が誤りである可能性があるため、難しい。
既存の手法では、すべてのテストを平等に扱うか、信頼できないテストをフィルタリングするためにアドホックなヒューリスティックに依存している。
しかし、テストの正確性を決定するには、どのコードが正しいかを知る必要がある。
私たちのキーとなる洞察は、テストの正しさを判断する必要はないということです。
重要なのは、どれだけのコードがテストに合格するかではなく、テストが間違ったコードから‘emph{distinguish}’を正せるかどうかです。
1つのテストを保持し、残りのすべてのテストで合計スコアでランク付けし、ホールドアウトテストのパス/フェイルパターンがこのランキングに一致するかどうかを測定します。
我々は,この合意をLOO-AUC(Left-one-out AUC)として定式化し,期待するLOO-AUCが各テストの正しいコードと間違ったコードとを分離する能力に比例していることを証明する。
これに基づいて、ACES-Cは平均テスト品質の軽度な仮定の下で期待されるオラクルを確実に近似する閉形式重みを提供する; ACES-Oはこの仮定を廃止し、微分可能なLOO-AUCの目的を反復的に最適化する。
どちらも、無視可能なオーバーヘッドを持つバイナリパスマトリックスでのみ動作し、複数のコード生成ベンチマークで最先端のPass@$k$を達成する。
関連論文リスト
- Code-A1: Adversarial Evolving of Code LLM and Test LLM via Reinforcement Learning [54.95476453942411]
コード生成のための強化学習は、単体テストのパスレートから検証可能な報酬に依存する。
最近のセルフプレイ手法は、1つのモデルでコードとテスト生成を統合する。
Code-A1は、人間のアノテーションによるテストでトレーニングされたコード生成のパフォーマンスマッチングまたはモデルを超えることを実現する。
論文 参考訳(メタデータ) (2026-03-16T17:58:13Z) - Can We Classify Flaky Tests Using Only Test Code? An LLM-Based Empirical Study [40.93176986225226]
不安定なテストは、同じコード修正で繰り返し実行されるとき、一貫性のない結果をもたらす。
以前の研究は、テストコードの識別子に基づいて不安定なテストを分類するために、機械学習モデルを訓練するアプローチを評価した。
論文 参考訳(メタデータ) (2026-02-05T09:15:09Z) - Assertion-Aware Test Code Summarization with Large Language Models [0.0]
単体テストは、テスト意図を伝える簡潔な要約を欠くことが多い。
本稿では,開発者による要約と組み合わせた実世界のJavaテストケース91のベンチマークを示す。
論文 参考訳(メタデータ) (2025-11-09T04:58:32Z) - How Many Code and Test Cases Are Enough? Evaluating Test Cases Generation from a Binary-Matrix Perspective [51.30005925128432]
LLM(Large Language Models)が自動生成するテストケースの評価は、非常に難しい作業です。
既存のベンチマークは高い計算コスト、インフレーションのスコア、稀でクリティカルな欠陥に対する自明なバグに対するバイアスに悩まされている。
本稿では,ベンチマーク構築をバイナリコードテスト行列の最適な診断基準として定式化するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T18:29:24Z) - CLEVER: A Curated Benchmark for Formally Verified Code Generation [53.5486188696892]
$rm Csmall LEVER$は、リーンにおけるエンドツーエンドのコード生成のための161の問題を、高品質でキュレートしたベンチマークである。
それぞれの問題は、(1)堅実な仕様と一致する仕様を生成するタスク、(2)この仕様を確実に満足するリーン実装を生成するタスクで構成されています。
論文 参考訳(メタデータ) (2025-05-20T05:15:47Z) - AugmenTest: Enhancing Tests with LLM-Driven Oracles [2.159639193866661]
AugmenTestは、大規模な言語モデルを活用して、テスト中のソフトウェアの利用可能なドキュメントに基づいて、正しいオーラクルを推測するアプローチである。
AugmenTestには4つのバリエーションがある: Simple Prompt、Extended Prompt、ジェネリックプロンプト付きRAG(テスト中のクラスやメソッドのコンテキストなしで)とSimple Prompt付きRAG。
結果は、最も保守的なシナリオでは、AugmenTestのExtended PromptがSimple Promptを一貫して上回り、正しいアサーションを生成するために30%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-01-29T07:45:41Z) - An LLM-based Readability Measurement for Unit Tests' Context-aware Inputs [3.8566905130795552]
自動テストの可読性は、コードの理解とメンテナンスに不可欠である。
UnderlineContext UnderlineConsistency UnderlineCriterion(別名C3)は可読性測定ツールである。
論文 参考訳(メタデータ) (2024-07-31T06:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。