論文の概要: LLM-as-a-Judge for Scalable Test Coverage Evaluation: Accuracy, Operational Reliability, and Cost
- arxiv url: http://arxiv.org/abs/2512.01232v1
- Date: Mon, 01 Dec 2025 03:19:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.664451
- Title: LLM-as-a-Judge for Scalable Test Coverage Evaluation: Accuracy, Operational Reliability, and Cost
- Title(参考訳): LLM-as-a-Judge for Scalable Test Coverage Evaluation: Accuracy, Operational Reliability, Cost
- Authors: Donghao Huang, Shila Chew, Anna Dutkiewicz, Zhaoxia Wang,
- Abstract要約: 構造化評価を用いた受入テスト評価のための実運用対応フレームワークを提案する。
正確性、運用上の信頼性、コストにまたがる最初の包括的分析を提供する。
私たちは、データセット、フレームワーク、そしてデプロイをサポートするためのコードをリリースします。
- 参考スコア(独自算出の注目度): 1.7133809948345597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assessing software test coverage at scale remains a bottleneck in QA pipelines. We present LLM-as-a-Judge (LAJ), a production-ready, rubric-driven framework for evaluating Gherkin acceptance tests with structured JSON outputs. Across 20 model configurations (GPT-4, GPT-5 with varying reasoning effort, and open-weight models) on 100 expert-annotated scripts over 5 runs (500 evaluations), we provide the first comprehensive analysis spanning accuracy, operational reliability, and cost. We introduce the Evaluation Completion Rate (ECR@1) to quantify first-attempt success, revealing reliability from 85.4% to 100.0% with material cost implications via retries. Results show that smaller models can outperform larger ones: GPT-4o Mini attains the best accuracy (6.07 MAAE), high reliability (96.6% ECR@1), and low cost ($1.01 per 1K), yielding a 78x cost reduction vs. GPT-5 (high reasoning) while improving accuracy. Reasoning effort is model-family dependent: GPT-5 benefits from increased reasoning (with predictable accuracy-cost tradeoffs), whereas open-weight models degrade across all dimensions as reasoning increases. Overall, cost spans 175x ($0.45-$78.96 per 1K). We release the dataset, framework, and code to support reproducibility and deployment.
- Abstract(参考訳): 大規模なソフトウェアテストカバレッジを評価することは、QAパイプラインではボトルネックのままです。
LLM-as-a-Judge(LLM-as-a-Judge)は,構造化JSON出力を用いてGherkinの受け入れテストを評価する,生産対応のルックス駆動型フレームワークである。
5ラン(500評価)を超える100のエキスパートアノテートスクリプト上での20モデル構成(GPT-4, GPT-5, 様々な推論用, オープンウェイトモデル)について, 精度, 運用信頼性, コストを網羅した最初の包括的分析を行った。
評価完了率 (ECR@1) を導入し, 初回成功率を85.4%から100.0%に算出し, 再試算による材料コストへの影響を明らかにした。
GPT-4o Miniは最高の精度(6.07 MAAE)、高い信頼性(96.6% ECR@1)、低コスト(1Kあたり1.01ドル)を実現し、精度を向上しながら78倍のコスト削減を実現している。
GPT-5は推論の増加(予測可能な精度とコストのトレードオフ)の恩恵を受ける一方、オープンウェイトモデルは推論が増加するにつれてすべての次元にわたって劣化する。
価格は1Kあたり175x (0.45-$78.96)である。
再現性とデプロイメントをサポートするために、データセット、フレームワーク、コードをリリースしています。
関連論文リスト
- Beyond Accuracy: A Multi-Dimensional Framework for Evaluating Enterprise Agentic AI Systems [0.0]
現在のエージェントAIベンチマークは、タスク完了の正確さを主に評価している。
コスト制御評価の欠如は、同様の精度で50倍のコスト変動をもたらす。
エージェントのパフォーマンスが60%(単一実行)から25%(8ラン一貫性)に低下する不適切な信頼性評価
論文 参考訳(メタデータ) (2025-11-18T04:50:19Z) - Beyond GPT-5: Making LLMs Cheaper and Better via Performance-Efficiency Optimized Routing [33.70788437189248]
Avengers-Proは、大規模な言語モデルのためのテスト時間ルーティングフレームワークである。
様々な能力と効率のLCMをアンサンブルする。
最強のシングルモデルを平均精度で+7%超えることができる。
論文 参考訳(メタデータ) (2025-08-18T05:23:31Z) - Performance of GPT-5 Frontier Models in Ophthalmology Question Answering [6.225411871775591]
GPT-5のような大規模言語モデル(LLM)は、医学的質問応答タスクのパフォーマンスを向上させる高度な推論機能を統合する。
O1高, O3高, GPT-4oとともに, OpenAI の GPT-5 シリーズの12 構成を評価した。
GPT-5-highは、O3-highより1.66倍、理性品質(1.11倍、O3-highより1.11倍)の両方で第1位である。
これらの結果は、GPT-5を高品質眼科データセット上でベンチマークし、推論が精度に与える影響を実証し、スケーラブルな評価のためのオートグラファーフレームワークを導入した。
論文 参考訳(メタデータ) (2025-08-13T17:17:17Z) - "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。
FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial Robustness [52.9493817508055]
我々は,モデルがゼロショットの逆方向のロバスト性を高めるために,事前訓練されたモデル誘導逆方向の微調整(PMG-AFT)を提案する。
私たちのアプローチは、平均8.72%のクリーンな精度を継続的に改善します。
論文 参考訳(メタデータ) (2024-01-09T04:33:03Z) - Ensemble of Averages: Improving Model Selection and Boosting Performance
in Domain Generalization [63.28279815753543]
ドメイン一般化(Domain Generalization, DG)設定では、特定のトレーニングドメインセットでトレーニングされたモデルが、シフトしたテストドメイン上でのカオスなパフォーマンスで悪名高い。
まず、モデルパラメータを最適化パスに沿って平均化する単純なプロトコルが、トレーニングの初期段階から始まって、ドメインの一般化性を大幅に向上させることを示す。
独立に訓練されたモデルのアンサンブルもまた、DG設定においてカオスな振る舞いを持つことを示す。
論文 参考訳(メタデータ) (2021-10-21T00:08:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。