論文の概要: Can LLMs Generate High-Quality Test Cases for Algorithm Problems? TestCase-Eval: A Systematic Evaluation of Fault Coverage and Exposure
- arxiv url: http://arxiv.org/abs/2506.12278v1
- Date: Fri, 13 Jun 2025 23:56:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.684485
- Title: Can LLMs Generate High-Quality Test Cases for Algorithm Problems? TestCase-Eval: A Systematic Evaluation of Fault Coverage and Exposure
- Title(参考訳): LLMはアルゴリズム問題に対して高品質なテストケースを生成することができるか? TestCase-Eval:断層被覆と露出の体系的評価
- Authors: Zheyuan Yang, Zexi Kuang, Xue Xia, Yilun Zhao,
- Abstract要約: TestCase-Evalには,500のアルゴリズム問題と,Codeforcesプラットフォームから10,000人の人為的なソリューションが含まれている。
それは2つの重要なタスクに焦点を当てている。
- 参考スコア(独自算出の注目度): 11.416429907438747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce TestCase-Eval, a new benchmark for systematic evaluation of LLMs in test-case generation. TestCase-Eval includes 500 algorithm problems and 100,000 human-crafted solutions from the Codeforces platform. It focuses on two pivotal tasks: (1) Fault Coverage, which measures how well LLM-generated test sets probe diverse input scenarios and cover a wide range of potential failure modes. (2) Fault Exposure, which evaluates whether LLMs can craft a tailored test input that reveals a specific incorrect code implementation. We provide a comprehensive assessment of 19 state-of-the-art open-source and proprietary LLMs on TestCase-Eval, offering insights into their strengths and limitations in generating effective test cases for algorithm problems.
- Abstract(参考訳): テストケース生成におけるLCMの体系的評価のための新しいベンチマークであるTestCase-Evalを紹介する。
TestCase-Evalには,500のアルゴリズム問題と,Codeforcesプラットフォームから10,000人の人為的なソリューションが含まれている。
1) 障害カバレッジ — LLMの生成したテストセットが、さまざまな入力シナリオを調査し、幅広い潜在的な障害モードをカバーする方法を測定する。
2) エラー露光(Fault Exposure) – LLMが特定の不正なコード実装を示す調整済みのテストインプットを作成できるかどうかを評価する。
我々は、TestCase-Eval上で、19の最先端のオープンソースおよびプロプライエタリなLLMの総合的な評価を行い、アルゴリズム問題に対する効果的なテストケースを生成する際の、その強みと限界についての洞察を提供する。
関連論文リスト
- Can LLMs Generate Reliable Test Case Generators? A Study on Competition-Level Programming Problems [11.087050901077253]
大規模言語モデル(LLM)は、推論中に複雑なタスクに対処できるコード生成において顕著な能力を示している。
テストケースジェネレータ(LLM生成)のベンチマークであるTCGBenchを提案する。
論文 参考訳(メタデータ) (2025-06-07T14:53:03Z) - CodeContests+: High-Quality Test Case Generation for Competitive Programming [14.602111331209203]
本稿では,競合プログラミング問題に対する高品質なテストケースを作成するエージェントシステムを提案する。
我々は、このシステムをCodeContestsデータセットに適用し、CodeContests+というテストケースを改善した新しいバージョンを提案する。
その結果、CodeContests+はCodeContestsよりもはるかに高い精度を実現し、特にTPR(True Positive Rate)が顕著であることがわかった。
論文 参考訳(メタデータ) (2025-06-06T07:29:01Z) - ABFS: Natural Robustness Testing for LLM-based NLP Software [8.833542944724465]
自然言語処理(NLP)ソフトウェアにおけるLLM(Large Language Models)は、様々な領域で急速に普及している。
これらの応用は、入力中のわずかな摂動が誤った出力につながるような堅牢性欠陥をしばしば示している。
現在のロバストネス試験法は,(1) 試験効率の低下,(2) 試験ケースの自然性不足の2つの主な限界に直面している。
論文 参考訳(メタデータ) (2025-03-03T09:02:06Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - ALI-Agent: Assessing LLMs' Alignment with Human Values via Agent-based Evaluation [48.54271457765236]
大規模言語モデル(LLM)は、人間の価値観と不一致した場合、意図しない、有害なコンテンツも引き出すことができる。
現在の評価ベンチマークでは、LLMが人的価値とどの程度うまく一致しているかを評価するために、専門家が設計した文脈シナリオが採用されている。
本研究では, LLM エージェントの自律的能力を活用し, 奥行き及び適応的アライメント評価を行う評価フレームワーク ALI-Agent を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:57:42Z) - Large Language Models as Test Case Generators: Performance Evaluation and Enhancement [3.5398126682962587]
大規模言語モデルが高品質なテストケースをいかに生み出すかを検討する。
本稿では,テストインプットとテストアウトプットの生成を分離するemphTestChainというマルチエージェントフレームワークを提案する。
以上の結果から,TestChainはベースラインのマージンを大きく上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-04-20T10:27:01Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。