Fugu-MT 論文翻訳(概要): LLM Test Generation via Iterative Hybrid Program Analysis

論文の概要: LLM Test Generation via Iterative Hybrid Program Analysis

arxiv url: http://arxiv.org/abs/2503.13580v1
Date: Mon, 17 Mar 2025 16:10:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-19 16:29:11.760855
Title: LLM Test Generation via Iterative Hybrid Program Analysis
Title（参考訳）: 反復ハイブリッドプログラム解析によるLCM試験生成
Authors: Sijia Gu, Noor Nashid, Ali Mesbah,
Abstract要約: Pantaは、コードを分析し、テストケースを構築する際に、人間が従う反復的なプロセスをエミュレートするテクニックである。オープンソースプロジェクトのサイクロマティックな複雑性の高いクラスで実施した経験的評価は,Pantaが26%,ブランチカバレッジが23%向上したことを示す。
参考スコア（独自算出の注目度）: 7.121002367542988
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automating unit test generation remains a significant challenge, particularly for complex methods in real-world projects. While Large Language Models (LLMs) have made strides in code generation, they struggle to achieve high branch coverage due to their limited ability to reason about intricate control flow structures. To address this limitation, we introduce Panta, a technique that emulates the iterative process human developers follow when analyzing code and constructing test cases. Panta integrates static control flow analysis and dynamic code coverage analysis to systematically guide LLMs in identifying uncovered execution paths and generating better test cases. By incorporating an iterative feedback-driven mechanism, our technique continuously refines test generation based on static and dynamic path coverage insights, ensuring more comprehensive and effective testing. Our empirical evaluation, conducted on classes with high cyclomatic complexity from open-source projects, demonstrates that Panta achieves 26% higher line coverage and 23% higher branch coverage compared to the state-of-the-art.
Abstract（参考訳）: 単体テスト生成の自動化は、特に現実世界のプロジェクトでは、重要な課題である。大きな言語モデル(LLM)はコード生成に力を入れているが、複雑な制御フロー構造を推論する能力に制限があるため、高いブランチカバレッジを達成するのに苦労している。この制限に対処するため、コードの解析やテストケースの構築において、人間が従う反復的なプロセスをエミュレートする手法であるPantaを紹介します。 Pantaは静的制御フロー分析と動的コードカバレッジ分析を統合し、LLMを体系的にガイドし、未発見の実行パスを特定し、より良いテストケースを生成する。反復的なフィードバック駆動機構を取り入れることで、静的および動的パスカバレッジの洞察に基づいてテスト生成を継続的に洗練し、より包括的で効果的なテストを保証する。オープン・ソース・プロジェクトのサイクロマティック・複雑性の高いクラスで実施した実証実験の結果,Pantaは26%,ブランチ・カバレッジは23%,最先端は23%であった。

関連論文リスト

Enhancing LLM-Based Test Generation by Eliminating Covered Code [2.2566909388480743]
大規模言語モデル(LLM)は、テスト生成を改善することを約束している。スケーラブルなLLMベースの単体テスト生成法を提案する。提案手法は,最先端のLCM法および検索法より優れている。
論文参考訳（メタデータ） (2026-02-25T15:16:43Z)
Rethinking Basis Path Testing: Mixed Integer Programming Approach for Test Path Set Generation [7.012302821190496]
本稿では,手続き探索タスクから宣言的最適化問題への基底経路生成を再構成する。構造的単純性においてグローバルに最適な完全基底パスセットを生成するために設計された混合プログラミング(MIP)フレームワークを導入する。我々のフレームワークには,理論上最適なパスセットを保証するホロスティックMIPモデルと,大規模かつ複雑なトポロジに対するスケーラブルなインクリメンタルMIP戦略の2つの補完戦略が含まれている。
論文参考訳（メタデータ） (2026-01-09T01:36:29Z)
InspectCoder: Dynamic Analysis-Enabled Self Repair through interactive LLM-Debugger Collaboration [71.18377595277018]
大きな言語モデル(LLM)は、診断が難しい複雑なロジックエラーを伴うバグの多いコードを生成することが多い。対話型デバッガ制御による動的解析を LLM に委ねる初のエージェントプログラム修復システムである InspectCoder を提案する。
論文参考訳（メタデータ） (2025-10-21T06:26:29Z)
ATGen: Adversarial Reinforcement Learning for Test Case Generation [78.48498301767079]
大きな言語モデル(LLM)はコード生成に優れていますが、その出力には微妙なバグが伴います。既存のテスト生成方法は静的データセットに依存している。我々は,対戦型強化学習を通じてテストケースジェネレータを訓練するフレームワークであるATGenを紹介する。
論文参考訳（メタデータ） (2025-10-16T12:49:25Z)
Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文参考訳（メタデータ） (2025-08-28T13:00:28Z)
Seed&Steer: Guiding Large Language Models with Compilable Prefix and Branch Signals for Unit Test Generation [20.083515771706473]
単体テストはソフトウェア開発ライフサイクルにおいて重要な役割を果たす。大規模言語モデル(LLM)に基づくアプローチの最近の進歩は、自動テスト生成を大幅に改善した。従来のユニットテスト手法と大規模言語モデルの能力を組み合わせた2段階のアプローチであるSeed&Steerを提案する。
論文参考訳（メタデータ） (2025-07-23T07:16:46Z)
Execution Guided Line-by-Line Code Generation [49.1574468325115]
本稿では,言語モデル生成プロセスにリアルタイム実行信号を組み込んだニューラルコード生成手法を提案する。提案手法であるExecutionGuidedFree Guidance (EGCFG) は,実行信号をモデルが生成するコードとして組み込む。
論文参考訳（メタデータ） (2025-06-12T17:50:05Z)
Boosting Rust Unit Test Coverage through Hybrid Program Analysis and Large Language Models [14.536415473544146]
本稿では,大規模言語モデル(LLM)を活用して高カバレッジ単体テストを生成する手法であるPALMを提案する。 PALMはプログラム解析を行い、関数内の分岐条件を特定し、それを経路制約に結合する。このアプローチを実装し、それを10のオープンソースのRustクラッドで評価します。
論文参考訳（メタデータ） (2025-06-10T17:21:21Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
From Token to Line: Enhancing Code Generation with a Long-Term Perspective [46.98293675904081]
大規模言語モデル(LLM)は、コード生成タスクの開発を著しく促進している。本稿では,MCTS を利用した textbfLSR-MCTS アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-10T04:03:25Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
Boundary Value Test Input Generation Using Prompt Engineering with LLMs: Fault Detection and Coverage Analysis [3.249891166806818]
本稿では,大規模言語モデル(LLM)のホワイトボックスソフトウェアテストにおける境界値テストインプット生成における有効性を評価するためのフレームワークを提案する。本稿では, 境界値生成におけるLLMの強度と限界, 特に共通境界関連問題の検出について述べる。本研究は, 境界値テストにおけるLCMの役割について考察し, 自動テスト手法の改善のための可能性と領域の両方について考察する。
論文参考訳（メタデータ） (2025-01-24T12:54:19Z)
Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文参考訳（メタデータ） (2024-09-19T02:20:06Z)
ASTER: Natural and Multi-language Unit Test Generation with LLMs [6.259245181881262]
静的解析を組み込んだジェネリックパイプラインを記述し,コンパイル可能な高カバレッジテストケースの生成においてLCMをガイドする。コードカバレッジとテスト自然性の観点から,生成したテストの品質を評価するための実証的研究を行った。
論文参考訳（メタデータ） (2024-09-04T21:46:18Z)
HITS: High-coverage LLM-based Unit Test Generation via Method Slicing [37.43624865049592]
大規模言語モデル(LLM)は、Javaプロジェクトの単体テストの生成においてうまく振る舞っている。しかし、プロジェクト内の複雑な焦点メソッドをカバーするパフォーマンスは貧弱である。そこで本研究では, 焦点メソッドをスライスに分解し, LLMに対してスライス毎にテストケーススライスを生成することを提案する。
論文参考訳（メタデータ） (2024-08-21T04:14:26Z)
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文参考訳（メタデータ） (2024-08-02T13:35:11Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
Enhancing LLM-based Test Generation for Hard-to-Cover Branches via Program Analysis [8.31978033489419]
難解な分岐に到達可能なテストを生成する新しい技術である TELPA を提案する。 27のオープンソースPythonプロジェクトに対する実験結果から,TELPAは最先端のSBSTやLLMベースの技術よりも優れていたことが判明した。
論文参考訳（メタデータ） (2024-04-07T14:08:28Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM [32.44432906540792]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。 SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。
論文参考訳（メタデータ） (2024-01-31T18:21:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。