論文の概要: Test code generation at Ericsson using Program Analysis Augmented Fine Tuned LLMs
- arxiv url: http://arxiv.org/abs/2506.11006v1
- Date: Wed, 23 Apr 2025 18:18:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.460292
- Title: Test code generation at Ericsson using Program Analysis Augmented Fine Tuned LLMs
- Title(参考訳): プログラム解析による微調整LDMを用いたエリクソンにおけるテストコード生成
- Authors: Sai Krishna, Balvinder Singh, Sujoy Roychowdhury, Giriprasad Sridhara, Sourav Mazumdar, Magnus Sandelin, Dimitris Rentas, Maciej Nalepa, Karol Sawicki, Jakub Gajda,
- Abstract要約: 我々はEricssonでLarge Language Models (LLM)を用いたテストコード生成について述べる。
私たちの入力は自然言語(英語)のテストステップであり、アウトプットはテストステップを達成するコード(Java)です。
- 参考スコア(独自算出の注目度): 1.4798334915529776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We describe test code generation using Large Language Models (LLMs) in Ericsson. Our input is a test step in natural language (English) and our output is code (Java) which accomplishes the test step. We describe how straight forward prompting does not suffice and results in LLM assuming functions and signatures which are not present in the code repository. We then show how we alleviate the problem by a combination of Retrieval Augmented Generation (RAG) along with prompt engineering that expanded the simple prompt with additional contextual information using static program analysis. We then describe further improvements that we obtained by fine-tuning the underlying LLM. The fine tuning is done based on a custom designed prompt template which has pre-dependent classes, their public methods as well two exemplar outputs obtained from RAG. Our results establish that our fine tuned models help improve the correspondence or conformity with the original developer written test code as measured by the traditional metrics of F1-score based on the methods used in the generated code. Fine tuning of a 8x7b Mixture of Experts (MoE) model leads to an average improvement of 8\% over the base model and is comparable to the scores on a much larger 8x22b MoE model.
- Abstract(参考訳): 我々はEricssonでLarge Language Models (LLM)を用いたテストコード生成について述べる。
私たちの入力は自然言語(英語)のテストステップであり、アウトプットはテストステップを達成するコード(Java)です。
コードリポジトリに存在しない関数やシグネチャをLLMで仮定すると, 直接フォワードプロンプトが十分でないことが分かる。
次に、静的プログラム解析を用いて、単純なプロンプトを付加した文脈情報を追加して拡張するプロンプトエンジニアリングとともに、RAG(Retrieval Augmented Generation)を組み合わせることで問題を緩和する方法を示す。
次に、基礎となるLLMを微調整することで得られたさらなる改善について述べる。
微調整はカスタムデザインのプロンプトテンプレートに基づいて行われ、事前に依存したクラス、公開メソッド、RAGから得られた2つの典型的な出力を持つ。
この結果から,F1-scoreの従来の測定基準で得られたテストコードとの整合性や整合性が,生成したコードで使用されるメソッドに基づいて向上することが確認できた。
8x7bのMixture of Experts(MoE)モデルの微調整は、ベースモデルよりも平均8\%向上し、はるかに大きな8x22bのMoEモデルのスコアに匹敵する。
関連論文リスト
- Private GPTs for LLM-driven testing in software development and machine learning [0.0]
要求に基づいて実行可能なテストコードを自動的に生成する,プライベートGPTの能力について検討する。
私たちは受け入れ基準を入力として使用し、エピックやストーリーの一部として定式化します。
論文 参考訳(メタデータ) (2025-06-06T20:05:41Z) - Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。
テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。
マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文 参考訳(メタデータ) (2025-04-04T00:41:40Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM [32.44432906540792]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。
SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。
特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。
論文 参考訳(メタデータ) (2024-01-31T18:21:49Z) - Coarse-Tuning Models of Code with Reinforcement Learning Feedback [0.0]
コード上で事前訓練されたLarge Language Models (LLM) が、プログラム合成の主流のアプローチとして登場した。
コードの品質を評価する接地関数からのフィードバックを用いて、強化学習により事前学習したLLMをさらに訓練するRCCFを提案する。
論文 参考訳(メタデータ) (2023-05-25T22:09:08Z) - Fully Autonomous Programming with Large Language Models [0.9558392439655015]
LLM(Large Language Models)を用いたプログラム合成への最近のアプローチは、"ニアミスシンドローム"を示す。
我々は、LLMとプログラム合成ベンチマーク2としてOpenAI Codexを使用し、問題記述と評価のためのテストのデータベースとして使用します。
結果として生じるフレームワークは、修復フェーズなしでのCodexの従来の使用法と、従来の遺伝的プログラミングアプローチの両方を上回ります。
論文 参考訳(メタデータ) (2023-04-20T16:12:05Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。