論文の概要: Understanding the Characteristics of LLM-Generated Property-Based Tests in Exploring Edge Cases
- arxiv url: http://arxiv.org/abs/2510.25297v1
- Date: Wed, 29 Oct 2025 09:07:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.293376
- Title: Understanding the Characteristics of LLM-Generated Property-Based Tests in Exploring Edge Cases
- Title(参考訳): エッジケース探索におけるLCM生成特性ベーステストの特性の理解
- Authors: Hidetake Tanaka, Haruto Tanaka, Kazumasa Shimari, Kenichi Matsumoto,
- Abstract要約: 本研究では,LLM生成プロパティベーステスト(PBT)の特性について,エッジケース探索のためのETTと比較して検討した。
我々は、拡張テストケースで標準解が失敗した16のHumanEval問題を解析し、PBTとEBTの両方のテストコードを生成する。
実験の結果,各手法がそれぞれ68.75%のバグ検出率を達成したのに対して,両手法は81.25%に改善した。
- 参考スコア(独自算出の注目度): 1.1279582296582873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) increasingly generate code in software development, ensuring the quality of LLM-generated code has become important. Traditional testing approaches using Example-based Testing (EBT) often miss edge cases -- defects that occur at boundary values, special input patterns, or extreme conditions. This research investigates the characteristics of LLM-generated Property-based Testing (PBT) compared to EBT for exploring edge cases. We analyze 16 HumanEval problems where standard solutions failed on extended test cases, generating both PBT and EBT test codes using Claude-4-sonnet. Our experimental results reveal that while each method individually achieved a 68.75\% bug detection rate, combining both approaches improved detection to 81.25\%. The analysis demonstrates complementary characteristics: PBT effectively detects performance issues and edge cases through extensive input space exploration, while EBT effectively detects specific boundary conditions and special patterns. These findings suggest that a hybrid approach leveraging both testing methods can improve the reliability of LLM-generated code, providing guidance for test generation strategies in LLM-based code generation.
- Abstract(参考訳): 大規模言語モデル(LLM)がソフトウェア開発においてコードを生成するにつれて、LLM生成コードの品質が重要になっている。
例ベースのテスト(EBT)を使った従来のテストアプローチでは、境界値や特別な入力パターン、極端な条件で発生する欠陥など、エッジケースを見逃すことが多かった。
本研究では,LLM生成プロパティベーステスト(PBT)の特性について,エッジケース探索のためのETTと比較して検討した。
我々は16のHumanEval問題を分析し、拡張テストケースで標準解が失敗し、Claude-4-sonnet を用いて PBT と EBT の両方のテストコードを生成する。
実験の結果,各手法はそれぞれ68.75 %のバグ検出率を達成したが,両手法は81.25 %に改善した。
PBTは広い入力空間探索によって性能問題やエッジケースを効果的に検出し、EBTは特定の境界条件や特殊なパターンを効果的に検出する。
これらの結果から,両テスト手法を併用したハイブリッドアプローチにより,LLM生成コードの信頼性が向上し,LLMベースコード生成におけるテスト生成戦略のガイダンスが得られたことが示唆された。
関連論文リスト
- Rethinking Verification for LLM Code Generation: From Generation to Testing [44.46778801679273]
大規模言語モデル(LLM)は最近、HumanEvalやLiveCodeBenchといったコード生成ベンチマークで顕著な成功を収めた。
本稿では,テストスーツの厳密な定量化を目的とした新しい多次元メトリクスを提案する。
実験の結果、SAGAは90.62%、検証器の精度はTCGBenchで32.58%に達することがわかった。
論文 参考訳(メタデータ) (2025-07-09T14:58:47Z) - Use Property-Based Testing to Bridge LLM Code Generation and Validation [38.25155484701058]
大きな言語モデル(LLM)はコード生成において優れていますが、その出力が機能的に正しいことを保証することは、永続的な課題です。
本稿では,Property-Generated Solverを紹介した。Property-Based Testing (PBT)を活用して,高レベルのプログラム特性を検証する新しいフレームワークである。
プロパティ生成ソルバーには、コード生成と反復リファインメント専用のジェネレータと、PBTライフサイクルを管理するテスタという、2つの共同LLMベースのエージェントが使用されている。
論文 参考訳(メタデータ) (2025-06-23T06:01:12Z) - Boundary Value Test Input Generation Using Prompt Engineering with LLMs: Fault Detection and Coverage Analysis [3.249891166806818]
本稿では,大規模言語モデル(LLM)のホワイトボックスソフトウェアテストにおける境界値テストインプット生成における有効性を評価するためのフレームワークを提案する。
本稿では, 境界値生成におけるLLMの強度と限界, 特に共通境界関連問題の検出について述べる。
本研究は, 境界値テストにおけるLCMの役割について考察し, 自動テスト手法の改善のための可能性と領域の両方について考察する。
論文 参考訳(メタデータ) (2025-01-24T12:54:19Z) - Toward Automated Validation of Language Model Synthesized Test Cases using Semantic Entropy [0.5057850174013127]
現代の大規模言語モデル(LLM)ベースのプログラミングエージェントは、しばしば、生成されたコードを洗練するためにテスト実行フィードバックに依存する。
本稿では,LLMが生成したテストケースの自動検証にセマンティックエントロピーを利用する新しいフレームワークVALTESTを紹介する。
VALTESTはテストの妥当性を最大29%向上し、パス@1スコアの大幅な増加によって証明されたコード生成のパフォーマンスが向上することを示している。
論文 参考訳(メタデータ) (2024-11-13T00:07:32Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Anomaly Detection of Tabular Data Using LLMs [54.470648484612866]
我々は,事前訓練された大規模言語モデル (LLM) がゼロショットバッチレベルの異常検出器であることを示す。
本稿では,実異常検出におけるLCMの潜在性を明らかにするために,エンドツーエンドの微調整手法を提案する。
論文 参考訳(メタデータ) (2024-06-24T04:17:03Z) - Large Language Models as Test Case Generators: Performance Evaluation and Enhancement [3.5398126682962587]
大規模言語モデルが高品質なテストケースをいかに生み出すかを検討する。
本稿では,テストインプットとテストアウトプットの生成を分離するemphTestChainというマルチエージェントフレームワークを提案する。
以上の結果から,TestChainはベースラインのマージンを大きく上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-04-20T10:27:01Z) - Enriching Automatic Test Case Generation by Extracting Relevant Test Inputs from Bug Reports [10.587260348588064]
BRMinerは,バグレポートから関連するインプットを抽出する従来の手法と組み合わせて,LLM(Large Language Models)を利用した新しいアプローチである。
本研究では,Defects4JベンチマークとEvoSuiteやRandoopといったテスト生成ツールを用いたBRMinerの評価を行った。
その結果、BRMinerは60.03%の関連入力レート(RIR)と31.71%の関連入力抽出精度(RIEAR)を達成した。
論文 参考訳(メタデータ) (2023-12-22T18:19:33Z) - On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。
TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文 参考訳(メタデータ) (2023-06-06T09:35:29Z) - CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。
CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。
我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文 参考訳(メタデータ) (2022-07-21T10:18:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。