論文の概要: Cerberus: Multi-Agent Reasoning and Coverage-Guided Exploration for Static Detection of Runtime Errors
- arxiv url: http://arxiv.org/abs/2512.21431v1
- Date: Wed, 24 Dec 2025 21:41:35 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:54:49.799322
- Title: Cerberus: Multi-Agent Reasoning and Coverage-Guided Exploration for Static Detection of Runtime Errors
- Title(参考訳): Cerberus: ランタイムエラーの静的検出のためのマルチエージェント推論とカバレッジガイドによる探索
- Authors: Hridya Dhulipala, Xiaokai Rong, Tien N. Nguyen,
- Abstract要約: 我々はCerberusを提案する。Cerberusは予測、実行不要なカバレッジ誘導テストフレームワークである。
Cerberus は LLM を使用して実行時のエラーを発生させるインプットを生成し、コード実行なしでコードカバレッジ予測とエラー検出を行う。
- 参考スコア(独自算出の注目度): 10.380414189465343
- License:
- Abstract: In several software development scenarios, it is desirable to detect runtime errors and exceptions in code snippets without actual execution. A typical example is to detect runtime exceptions in online code snippets before integrating them into a codebase. In this paper, we propose Cerberus, a novel predictive, execution-free coverage-guided testing framework. Cerberus uses LLMs to generate the inputs that trigger runtime errors and to perform code coverage prediction and error detection without code execution. With a two-phase feedback loop, Cerberus first aims to both increasing code coverage and detecting runtime errors, then shifts to focus only detecting runtime errors when the coverage reaches 100% or its maximum, enabling it to perform better than prompting the LLMs for both purposes. Our empirical evaluation demonstrates that Cerberus performs better than conventional and learning-based testing frameworks for (in)complete code snippets by generating high-coverage test cases more efficiently, leading to the discovery of more runtime errors.
- Abstract(参考訳): いくつかのソフトウェア開発シナリオでは、実際の実行なしにコードスニペットのランタイムエラーや例外を検出することが望ましい。
典型的な例は、コードベースに統合する前に、オンラインコードスニペットのランタイム例外を検出することである。
本稿では,新しい予測型,実行自由なカバレッジ誘導テストフレームワークであるCerberusを提案する。
Cerberus は LLM を使用して実行時のエラーを発生させるインプットを生成し、コード実行なしでコードカバレッジ予測とエラー検出を行う。
2フェーズのフィードバックループで、Cerberusは最初、コードカバレッジの増加とランタイムエラーの検出の両方を目標とし、カバレッジが100%あるいはその最大値に達する場合にのみランタイムエラーを検出するようにシフトした。
我々の経験的評価は、Cerberusが高カバレッジのテストケースをより効率的に生成することで、(イン)完全コードスニペットに対する従来のおよび学習ベースのテストフレームワークよりも優れたパフォーマンスを示し、ランタイムエラーの発見につながった。
関連論文リスト
- Fuzzwise: Intelligent Initial Corpus Generation for Fuzzing [14.734454356396157]
突然変異ベースのグレーボックスファジングでは、初期コーパスのための高品質な入力シードを生成することが不可欠である。
FuzzyWiseは、大きなコーパスを生成し、その後最小化するために、別々のフェーズを統合する。
FuzzyWiseは高いコードカバレッジを実現し、ベースラインと比較してランタイムエラーを発生させる。
論文 参考訳(メタデータ) (2025-12-24T22:17:29Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - Reflective Unit Test Generation for Precise Type Error Detection with Large Language Models [13.969152395348653]
RTEDはPythonの型エラーを自動的に検出する型認識テスト生成技術である。
RTEDは4つの最先端技術よりも22-29のベンチマーク型エラーを検出できることを示す。
また、偽陽性を減らし、173.9%-245.9%の精度で改善できる。
論文 参考訳(メタデータ) (2025-07-03T05:10:33Z) - Towards Exception Safety Code Generation with Intermediate Representation Agents Framework [54.03528377384397]
大規模言語モデル(LLM)は、しばしば生成されたコードの堅牢な例外処理に苦しむ。
中間表現(IR)アプローチにより,LLM生成コードの例外安全性を実現する新しいマルチエージェントフレームワークであるSeekerを提案する。
Seekerは例外処理をScanner, Detector, Predator, Ranker, Handlerの5つの特殊エージェントに分解する。
論文 参考訳(メタデータ) (2024-10-09T14:45:45Z) - TestGenEval: A Real World Unit Test Generation and Test Completion Benchmark [24.14654309612826]
TestGenEvalは、1,210のコードから68,647のテストと、11の保守されたPythonリポジトリにまたがるテストファイルペアで構成されている。
初期テストのオーサリング、テストスイートの補完、コードカバレッジの改善をカバーしている。
パラメータは7Bから405Bまで様々である。
論文 参考訳(メタデータ) (2024-10-01T14:47:05Z) - A Static Evaluation of Code Completion by Large Language Models [65.18008807383816]
単純なプログラミング問題に対するモデル生成コードの機能的正当性を評価するために,実行ベースベンチマークが提案されている。
プログラムを実行せずにエラーを検出するlinterのような静的解析ツールは、コード生成モデルを評価するために十分に研究されていない。
抽象構文木を利用して,Pythonのコード補完における静的エラーを定量化する静的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-05T19:23:34Z) - Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。
我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-06-04T22:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。