論文の概要: Program Structure-aware Language Models: Targeted Software Testing beyond Textual Semantics
- arxiv url: http://arxiv.org/abs/2604.17715v1
- Date: Mon, 20 Apr 2026 01:54:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.656128
- Title: Program Structure-aware Language Models: Targeted Software Testing beyond Textual Semantics
- Title(参考訳): プログラム構造を意識した言語モデル: テキストセマンティクス以外のソフトウェアテストをターゲットに
- Authors: Khang Tran, Khoa Nguyen, Cristian Borcea, NhatHai Phan,
- Abstract要約: GLMTestは、ターゲットテストケース生成のための最初のプログラム構造を意識したLCMフレームワークである。
GLMTestは、グラフニューラルネットワークと言語モデルを使用して、コードプロパティグラフとコードセマンティクスをシームレスに統合する。
実験によると、Qwen2.5-Coder-7B-Instructモデルで構築されたGLMTestは、TestGenEvalベンチマークでブランチの精度を27.4%から50.2%改善している。
- 参考スコア(独自算出の注目度): 4.692354011387022
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in large language models for test case generation have improved branch coverage via prompt-engineered mutations. However, they still lack principled mechanisms for steering models toward specific high-risk execution branches, limiting their effectiveness for discovering subtle bugs and security vulnerabilities. We propose GLMTest, the first program structure-aware LLM framework for targeted test case generation that seamlessly integrates code property graphs and code semantics using a graph neural network and a language model to condition test case generation on execution branches. This structured conditioning enables controllable and branch-targeted test case generation, thereby potentially enhancing bug and security risk discovery. Experiments on real-world projects show that GLMTest built on a Qwen2.5-Coder-7B-Instruct model improves branch accuracy from 27.4% to 50.2% on TestGenEval benchmark compared with state-of-the-art LLMs, i.e., Claude-Sonnet-4.5 and GPT-4o-mini.
- Abstract(参考訳): テストケース生成のための大規模言語モデルの最近の進歩は、プロンプトエンジニアリングによる突然変異による分岐カバレッジを改善した。
しかしながら、特定のハイリスク実行ブランチに対してモデルをステアリングするための原則的なメカニズムは依然として欠如しており、微妙なバグやセキュリティ脆弱性を発見するための有効性を制限している。
GLMTestは,コードプロパティグラフとコードセマンティクスを,グラフニューラルネットワークと言語モデルを用いてシームレスに統合し,実行ブランチ上でのテストケース生成を条件付ける,最初のプログラム構造を意識したLLMフレームワークである。
この構造化条件付けにより、制御可能で分岐対象のテストケースの生成が可能になり、バグやセキュリティリスクの発見が促進される可能性がある。
実世界のプロジェクトでの実験では、Qwen2.5-Coder-7B-Instructモデルで構築されたGLMTestは、最先端のLCM、すなわちClaude-Sonnet-4.5とGPT-4o-miniと比較して、TestGenEvalベンチマークで分岐精度を27.4%から50.2%改善している。
関連論文リスト
- TestDecision: Sequential Test Suite Generation via Greedy Optimization and Reinforcement Learning [17.157244731153554]
MDPとしてテストスイートの生成を形式化し,その目的が単調な部分モジュラリティを示すことを示す。
本研究では,LSMを神経グリージーの専門家に変換するTestDecisionを提案する。
TestDecisionは既存の高度なメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2026-04-02T09:13:52Z) - Code Vulnerability Detection Across Different Programming Languages with AI Models [0.0]
本稿では,CodeBERTやCodeLlamaのようなトランスフォーマーモデルの実装について述べる。
これは、脆弱で安全なコードフラグメント上でモデルを動的に微調整することで、オフザシェルフモデルがモデル内の予測能力をいかに生み出すかを示している。
実験によると、よく訓練されたCodeBERTは97%以上の精度で既存の静的アナライザに匹敵するか、それ以上に優れている。
論文 参考訳(メタデータ) (2025-08-14T05:41:58Z) - Impact of Code Context and Prompting Strategies on Automated Unit Test Generation with Modern General-Purpose Large Language Models [0.0]
ジェネレーティブAIは、ソフトウェアエンジニアリングにおいて注目を集めている。
単体テストはテストケースの大部分を占め、しばしばスキーマ的である。
本稿では,コードコンテキストが単体テストの品質と妥当性に与える影響について検討する。
論文 参考訳(メタデータ) (2025-07-18T11:23:17Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - A Systematic Approach for Assessing Large Language Models' Test Case Generation Capability [0.8287206589886879]
大規模言語モデル (LLM) を評価するために,制御フロー構造と可変利用構成 (GBCV) から生成したベンチマークを提案する。
基本的な制御フロー構造と変数使用量を活用することで、GBCVは、単純なプログラムから複雑なプログラムの範囲を作成する柔軟なフレームワークを提供する。
以上の結果から,GPT-4oは複雑なプログラム構造において優れた性能を示し,全てのモデルが単純な条件下で境界値を効果的に検出するが,算術計算では問題に直面することが示唆された。
論文 参考訳(メタデータ) (2025-02-05T03:51:44Z) - TestBench: Evaluating Class-Level Test Case Generation Capability of Large Language Models [8.22619177301814]
クラスレベルのLLMベースのテストケース生成のためのベンチマークであるTestBenchを紹介する。
GitHub上の9つの実世界の大規模プロジェクトから108のJavaプログラムのデータセットを構築します。
本稿では,構文的正当性,コンパイル的正当性,テスト的正当性,コードカバレッジ率,欠陥検出率という,テストケースの5つの側面を考慮した詳細な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-26T06:18:06Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。