Fugu-MT 論文翻訳(概要): Large Language Model-Driven Concolic Execution for Highly Structured Test Input Generation

論文の概要: Large Language Model-Driven Concolic Execution for Highly Structured Test Input Generation

arxiv url: http://arxiv.org/abs/2504.17542v1
Date: Thu, 24 Apr 2025 13:32:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-02 19:15:53.383672
Title: Large Language Model-Driven Concolic Execution for Highly Structured Test Input Generation
Title（参考訳）: 高構造試験入力生成のための大規模言語モデル駆動型コンコリック実行
Authors: Haoxin Tu, Seongmin Lee, Yuxian Li, Peng Chen, Lingxiao Jiang, Marcel Böhme,
Abstract要約: CottontailはLLM(Large Language Model)による新しいコンコリック実行エンジンである。解析プログラムを体系的にテストするための高度に構造化されたテスト入力を生成する。最先端のアプローチ(SymCCとMarco)を14.15%、14.31%上回っている。
参考スコア（独自算出の注目度）: 17.998976466008592
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: How can we perform concolic execution to generate highly structured test inputs for systematically testing parsing programs? Existing concolic execution engines are significantly restricted by (1) input structure-agnostic path constraint selection, leading to the waste of testing effort or missing coverage; (2) limited constraint-solving capability, yielding many syntactically invalid test inputs; (3) reliance on manual acquisition of highly structured seed inputs, resulting in non-continuous testing. This paper proposes Cottontail, a new Large Language Model (LLM)-driven concolic execution engine, to mitigate the above limitations. A more complete program path representation, named Expressive Structural Coverage Tree (ESCT), is first constructed to select structure-aware path constraints. Later, an LLM-driven constraint solver based on a Solve-Complete paradigm is designed to solve the path constraints smartly to get test inputs that are not only satisfiable to the constraints but also valid to the input syntax. Finally, a history-guided seed acquisition is employed to obtain new highly structured test inputs either before testing starts or after testing is saturated. We implemented Cottontail on top of SymCC and evaluated eight extensively tested open-source libraries across four different formats (XML, SQL, JavaScript, and JSON). The experimental result is promising: it shows that Cottontail outperforms state-of-the-art approaches (SymCC and Marco) by 14.15% and 14.31% in terms of line coverage. Besides, Cottontail found 6 previously unknown vulnerabilities (six new CVEs have been assigned). We have reported these issues to developers, and 4 out of them have been fixed so far.
Abstract（参考訳）: 構文解析プログラムを体系的にテストするための高度に構造化されたテストインプットを生成するために、コンコリックの実行をどのように行うか。既存のコンコルの実行エンジンは,(1) 入力構造に依存しない経路制約の選択,(2) テストの無駄やカバレッジの欠如,(2) 制約解決能力の制限,多数の構文的に無効なテスト入力,(3) 高度に構造化されたシード入力を手作業で取得することによる非連続的なテストによって著しく制限されている。本稿では,新しいLarge Language Model (LLM) 駆動の並列実行エンジンであるCottontailを提案する。より完全なプログラムパス表現であるExpressive Structure Coverage Tree (ESCT)が最初に構築され、構造を考慮したパス制約を選択する。後に、Solve-Completeパラダイムに基づくLCM駆動の制約解決器は、制約に適合するだけでなく、入力構文にも有効であるテスト入力を得るために、経路制約をスマートに解決するように設計されている。最後に、履歴誘導型シード取得を用いて、テスト開始前またはテストが飽和した後に、新しい高度に構造化されたテストインプットを得る。 SymCC上にCottontailを実装して,4つのフォーマット(XML, SQL, JavaScript, JSON)にわたって,広くテストされた8つのオープンソースライブラリを評価しました。実験結果は有望であり、Cottontailは最先端のアプローチ(SymCCとMarco)を14.15%と14.31%で上回っている。さらに、Cottontailは6つの既知の脆弱性を発見した(新しいCVEが6つ割り当てられている)。われわれはこれらの問題を開発者に報告しており、そのうち4つは今のところ修正されている。

関連論文リスト

Seed&Steer: Guiding Large Language Models with Compilable Prefix and Branch Signals for Unit Test Generation [20.083515771706473]
単体テストはソフトウェア開発ライフサイクルにおいて重要な役割を果たす。大規模言語モデル(LLM)に基づくアプローチの最近の進歩は、自動テスト生成を大幅に改善した。従来のユニットテスト手法と大規模言語モデルの能力を組み合わせた2段階のアプローチであるSeed&Steerを提案する。
論文参考訳（メタデータ） (2025-07-23T07:16:46Z)
Impact of Code Context and Prompting Strategies on Automated Unit Test Generation with Modern General-Purpose Large Language Models [0.0]
ジェネレーティブAIは、ソフトウェアエンジニアリングにおいて注目を集めている。単体テストはテストケースの大部分を占め、しばしばスキーマ的である。本稿では,コードコンテキストが単体テストの品質と妥当性に与える影響について検討する。
論文参考訳（メタデータ） (2025-07-18T11:23:17Z)
Improving Deep Learning Framework Testing with Model-Level Metamorphic Testing [19.880543046739252]
DL(Deep Learning)フレームワークは、DLベースのソフトウェアシステムに必須であり、フレームワークのバグは重大な災害につながる可能性がある。研究者はDLモデルや単一インターフェースをテスト入力として採用し、実行結果を分析してバグを検出する。浮動小数点誤差、固有のランダム性、そしてテスト入力の複雑さは、実行結果を効果的に分析することを困難にしている。
論文参考訳（メタデータ） (2025-07-06T11:38:14Z)
Boosting Rust Unit Test Coverage through Hybrid Program Analysis and Large Language Models [14.536415473544146]
本稿では,大規模言語モデル(LLM)を活用して高カバレッジ単体テストを生成する手法であるPALMを提案する。 PALMはプログラム解析を行い、関数内の分岐条件を特定し、それを経路制約に結合する。このアプローチを実装し、それを10のオープンソースのRustクラッドで評価します。
論文参考訳（メタデータ） (2025-06-10T17:21:21Z)
CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文参考訳（メタデータ） (2025-02-12T21:42:56Z)
AugmenTest: Enhancing Tests with LLM-Driven Oracles [2.159639193866661]
AugmenTestは、大規模な言語モデルを活用して、テスト中のソフトウェアの利用可能なドキュメントに基づいて、正しいオーラクルを推測するアプローチである。 AugmenTestには4つのバリエーションがある: Simple Prompt、Extended Prompt、ジェネリックプロンプト付きRAG(テスト中のクラスやメソッドのコンテキストなしで)とSimple Prompt付きRAG。結果は、最も保守的なシナリオでは、AugmenTestのExtended PromptがSimple Promptを一貫して上回り、正しいアサーションを生成するために30%の成功率を達成したことを示している。
論文参考訳（メタデータ） (2025-01-29T07:45:41Z)
CasModaTest: A Cascaded and Model-agnostic Self-directed Framework for Unit Test Generation [5.450831103980871]
CasModaTestは、カスケードされた、モデルに依存しない、エンドツーエンドのユニットテスト生成フレームワークである。テストプレフィックスを生成し、オークルをテストし、それらの有効性をチェックするためにコンパイルまたは実行します。
論文参考訳（メタデータ） (2024-06-22T05:52:39Z)
TESTEVAL: Benchmarking Large Language Models for Test Case Generation [15.343859279282848]
大規模言語モデル(LLM)を用いたテストケース生成のための新しいベンチマークであるTESTEVALを提案する。オンラインプログラミングプラットフォームLeetCodeから210のPythonプログラムを収集し、全体的なカバレッジ、ターゲットライン/ブランチカバレッジ、ターゲットパスカバレッジという3つの異なるタスクを設計します。特定のプログラム行/ブランチ/パスをカバーするテストケースを生成することは、現在のLLMでは依然として困難である。
論文参考訳（メタデータ） (2024-06-06T22:07:50Z)
LLM-Powered Test Case Generation for Detecting Tricky Bugs [30.82169191775785]
AIDは、少なくとも正しいプログラムをターゲットにしたテスト入力とオラクルを生成する。 TrickyBugs と EvalPlus の2つの大規模データセットに対する AID の評価を行った。その結果,AIDのリコール,精度,F1スコアは,それぞれ1.80x,2.65x,1.66xに優れていた。
論文参考訳（メタデータ） (2024-04-16T06:20:06Z)
Theoretically Achieving Continuous Representation of Oriented Bounding Boxes [64.15627958879053]
本論文は,オブジェクト指向境界ボックス表現における不連続性を完全に解決しようとする試みである。本研究では,既存の検出器に容易に統合可能なCOBB(Continuous OBB)という新しい表現法を提案する。 OOD評価のためのオープンソースのディープラーニングフレームワークJittorの検出ツールボックスJDetをベースとした,モジュール化されたベンチマークを開発した。
論文参考訳（メタデータ） (2024-02-29T09:27:40Z)
PyTester: Deep Reinforcement Learning for Text-to-Testcase Generation [20.441921569948562]
テスト駆動開発(TDD)は、実際のコードを書く前に要件に基づいてテストケースを書くことを義務付ける。テストケースを書くことはTDDの中心ですが、時間がかかり、コストがかかり、開発者が悩まされることも少なくありません。 PyTesterは、テキストからテストケースを生成するアプローチで、正しい、実行可能な、完全な、効果的なテストケースを自動的に生成します。
論文参考訳（メタデータ） (2024-01-15T10:21:58Z)
On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。 TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文参考訳（メタデータ） (2023-06-06T09:35:29Z)
Pre-trained Embeddings for Entity Resolution: An Experimental Analysis [Experiment, Analysis & Benchmark] [65.11858854040544]
我々は、17の確立されたベンチマークデータセットに対して、12のポピュラー言語モデルの徹底的な実験分析を行う。まず、全ての入力エンティティを高密度な埋め込みベクトルに変換するためのベクトル化のオーバーヘッドを評価する。次に,そのブロッキング性能を調査し,詳細なスケーラビリティ解析を行い,最先端のディープラーニングベースのブロッキング手法と比較する。第3に、教師なしマッチングと教師なしマッチングの両方に対して、相対的な性能で締めくくります。
論文参考訳（メタデータ） (2023-04-24T08:53:54Z)
Forward LTLf Synthesis: DPLL At Work [1.370633147306388]
有限トレース(LTLf)上での線形時間論理の合成のための新しいAND-ORグラフ探索フレームワークを提案する。このようなフレームワーク内では、Davis-Putnam-Logemann-Loveland (DPLL)アルゴリズムにインスパイアされたプロシージャを考案し、次に利用可能なエージェント環境の動きを生成する。また,状態公式の構文的等価性に基づく探索ノードの等価性チェックも提案する。
論文参考訳（メタデータ） (2023-02-27T14:33:50Z)
CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。 CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文参考訳（メタデータ） (2022-07-21T10:18:37Z)
POINTER: Constrained Progressive Text Generation via Insertion-based Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文参考訳（メタデータ） (2020-05-01T18:11:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。