Fugu-MT 論文翻訳(概要): SPARC: Scenario Planning and Reasoning for Automated C Unit Test Generation

論文の概要: SPARC: Scenario Planning and Reasoning for Automated C Unit Test Generation

arxiv url: http://arxiv.org/abs/2602.16671v1
Date: Wed, 18 Feb 2026 18:09:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-19 15:58:30.677753
Title: SPARC: Scenario Planning and Reasoning for Automated C Unit Test Generation
Title（参考訳）: SPARC: 自動Cユニットテスト生成のためのシナリオプランニングと推論
Authors: Jaid Monwar Chowdhury, Chi-An Fu, Reyhaneh Jabbarvand,
Abstract要約: 本稿では,高レベルのプログラム意図とポインタ演算と手動メモリ管理の厳密な構文制約とのギャップを埋める,ニューロシンボリックなシナリオベースのフレームワークを提案する。我々は、59の現実世界およびアルゴリズムの被験者で評価し、バニラプロンプト生成ベースラインを31.36%、分岐カバレッジ26.01%、突然変異スコア20.78%で上回り、シンボリック実行ツールKLEEに適合または超えている。
参考スコア（独自算出の注目度）: 1.0010193170880752
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automated unit test generation for C remains a formidable challenge due to the semantic gap between high-level program intent and the rigid syntactic constraints of pointer arithmetic and manual memory management. While Large Language Models (LLMs) exhibit strong generative capabilities, direct intent-to-code synthesis frequently suffers from the leap-to-code failure mode, where models prematurely emit code without grounding in program structure, constraints, and semantics. This will result in non-compilable tests, hallucinated function signatures, low branch coverage, and semantically irrelevant assertions that cannot properly capture bugs. We introduce SPARC, a neuro-symbolic, scenario-based framework that bridges this gap through four stages: (1) Control Flow Graph (CFG) analysis, (2) an Operation Map that grounds LLM reasoning in validated utility helpers, (3) Path-targeted test synthesis, and (4) an iterative, self-correction validation loop using compiler and runtime feedback. We evaluate SPARC on 59 real-world and algorithmic subjects, where it outperforms the vanilla prompt generation baseline by 31.36% in line coverage, 26.01% in branch coverage, and 20.78% in mutation score, matching or exceeding the symbolic execution tool KLEE on complex subjects. SPARC retains 94.3% of tests through iterative repair and produces code with significantly higher developer-rated readability and maintainability. By aligning LLM reasoning with program structure, SPARC provides a scalable path for industrial-grade testing of legacy C codebases.
Abstract（参考訳）: C言語の自動単体テスト生成は、高レベルのプログラム意図とポインタ演算と手動メモリ管理の厳密な構文制約とのセマンティックなギャップのため、依然として大きな課題である。大規模言語モデル(LLM)は強力な生成能力を示すが、直接コード合成は、プログラム構造、制約、セマンティクスを基礎にすることなく、モデルが早期にコードを出力する跳躍コード障害モードにしばしば悩まされる。これはコンパイル不能なテスト、幻覚された関数シグネチャ、低いブランチカバレッジ、そしてバグを正しくキャプチャできない意味的に無関係なアサーションをもたらす。本研究では,(1)制御フローグラフ(CFG)解析,(2)検証済みユーティリティヘルパーのLCM推論に基づく運用マップ,(3)パスターゲットテスト合成,(4)コンパイラと実行時フィードバックを用いた反復的自己補正検証ループの4段階を通じて,このギャップをブリッジする,神経象徴的シナリオベースのフレームワークであるSPARCを紹介する。本研究では,59の現実世界およびアルゴリズム上の被験者に対してSPARCを評価し,バニラプロンプト生成ベースラインを31.36%,分岐カバレッジ26.01%,突然変異スコア20.78%,複雑な被験者に対するシンボリック実行ツールKLEEの整合あるいは超越など,バニラプロンプト生成ベースラインよりも優れていた。 SPARCは反復的な修復を通じて94.3%のテストを保持し、開発者による読みやすさと保守性を大幅に向上したコードを生成する。 LLM推論をプログラム構造と整合させることで、SPARCはレガシCコードベースの産業レベルのテストにスケーラブルなパスを提供する。

関連論文リスト

CLARC: C/C++ Benchmark for Robust Code Search [2.225731679677886]
現実のGitHubリポジトリから構築されたC/C++ベンチマークであるCLARCを紹介します。 Clarcには、評価用の1,245のクエリコードペアと、トレーニング用の5,472のペアが含まれている。
論文参考訳（メタデータ） (2026-03-04T18:57:37Z)
AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms [54.99368693313797]
既存のベンチマークでは、個々の言語/ツールのみをテストするため、パフォーマンス番号は直接比較できない。このギャップに対処するAlgoVeriは、Dafny、Verus、Leanで77ドルの古典的アルゴリズムのベリコーディングを評価するベンチマークです。
論文参考訳（メタデータ） (2026-02-10T06:58:26Z)
Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文参考訳（メタデータ） (2026-02-02T09:14:51Z)
RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文参考訳（メタデータ） (2026-01-30T08:29:01Z)
BRIDGE: Building Representations In Domain Guided Program Verification [67.36686119518441]
BRIDGEは、検証をコード、仕様、証明の3つの相互接続ドメインに分解する。提案手法は, 標準誤差フィードバック法よりも精度と効率を著しく向上することを示す。
論文参考訳（メタデータ） (2025-11-26T06:39:19Z)
Can LLMs Recover Program Semantics? A Systematic Evaluation with Symbolic Execution [1.5377279217726239]
難読化は、プログラムの理解、メンテナンス、テスト、脆弱性検出といったソフトウェアエンジニアリングタスクに永続的な課題をもたらす。微調整言語モデルがプログラムを効果的に難読化し、分析可能性を取り戻すことができるかどうかを検討する。
論文参考訳（メタデータ） (2025-11-24T13:55:20Z)
Structured Cognitive Loop for Behavioral Intelligence in Large Language Model Agents [0.0]
既存のフレームワークは認知、記憶、制御をひとつのプロンプトで混ぜることが多く、一貫性と予測可能性を減らす。構造化認知ループ (Structured Cognitive Loop, SCL) は、これらの機能を分離する代替アーキテクチャとして提案されている。 SCLの平均タスク成功率は86.3%であり、ベースラインは70.5から76.8%である。
論文参考訳（メタデータ） (2025-09-23T17:43:17Z)
Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文参考訳（メタデータ） (2025-08-28T13:00:28Z)
CHORUS: Zero-shot Hierarchical Retrieval and Orchestration for Generating Linear Programming Code [0.0]
本研究では,Large Language Models (LLMs) のLinear Programming (LP) コード生成における効率性について検討する。自然言語問題文からGurobiベースのLPコードを合成する検索拡張生成フレームワークCHORUSを提案する。 NL4-Codeベンチマークの実験では、CHORUSはベースラインや従来のRAGに比べて大きなマージンでオープンソースのLLMの性能を改善している。
論文参考訳（メタデータ） (2025-05-02T16:36:57Z)
CodeARC: Benchmarking Reasoning Capabilities of LLM Agents for Inductive Program Synthesis [6.8081984950459]
既存の評価プロトコルは、静的なサンプルセットとホールドアウトテストに依存しており、合成された関数が正しくない場合にフィードバックを提供する。エージェントが隠れたターゲット関数と対話する新しい評価フレームワークであるCodeARCを提案する。 1114の関数を特徴とする汎用帰納的プログラム合成のための,最初の大規模ベンチマークを構築した。
論文参考訳（メタデータ） (2025-03-29T16:50:39Z)
CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文参考訳（メタデータ） (2025-02-12T21:42:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。