論文の概要: LLM Assisted Coding with Metamorphic Specification Mutation Agent
- arxiv url: http://arxiv.org/abs/2511.18249v1
- Date: Sun, 23 Nov 2025 02:30:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.721361
- Title: LLM Assisted Coding with Metamorphic Specification Mutation Agent
- Title(参考訳): メタモルフィック・スペック・ミューテーション・エージェントを用いたLLM符号化
- Authors: Mostafijur Rahman Akhond, Gias Uddin,
- Abstract要約: メタモルフィック関係は、意味論的に等価な突然変異を生成する基本的なメカニズムとして機能する。
CodeMetaAgent (CMA)は、タスク仕様を体系的に洗練し、セマンティックに制約されたテストケースを生成する。
我々のフレームワークはHumanEval-Pro、MBPP-Pro、SWE-Bench_Liteデータセットで評価されている。
- 参考スコア(独自算出の注目度): 2.2917707112773593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Metamorphic Relations (MRs) serve as a foundational mechanism for generating semantically equivalent mutations. Software engineering has advanced significantly in recent years with the advent of Large Language Models (LLMs). However, the reliability of LLMs in software engineering is often compromised by ambiguities and inconsistencies due to improper user specification. To address this challenge, we present CodeMetaAgent (CMA), a metamorphic relation-driven LLM agent that systematically refines task specifications and generates semantically constrained test cases. Our proposed framework uses MRs with LLMs to improve generation consistency and reduce variability caused by specifications, unlike the traditional use of MRs as post validations. Our framework has been evaluated on the HumanEval-Pro, MBPP-Pro, and SWE-Bench_Lite datasets using the GPT-4o, Mistral Large, GPT-OSS, and Qwen3-Coder models. It improved code generation accuracy by up to 17% and achieved code coverage gains of up to 99.81%. These results show that metamorphic relations can be a simple but effective guide in assisting LLM-based software development.
- Abstract(参考訳): メタモルフィックリレーショナル(MR)は、意味論的に等価な突然変異を生成する基本的なメカニズムとして機能する。
近年,Large Language Models (LLMs) が出現し,ソフトウェア工学が著しく進歩している。
しかし、ソフトウェア工学におけるLLMの信頼性は、不適切なユーザー仕様のために曖昧さと矛盾によってしばしば損なわれる。
この課題に対処するため,CodeMetaAgent (CMA) は,タスク仕様を体系的に洗練し,意味的に制約されたテストケースを生成するメタモルフィック関係駆動型LLMエージェントである。
提案フレームワークは,従来のMRをポストバリデーションとして使用しているのとは異なり,LLMを用いたMRを用いて生成一貫性を改善し,仕様による変動を低減する。
我々は,GPT-4o,Mistral Large,GPT-OSS,Qwen3-Coderモデルを用いて,HumanEval-Pro,MBPP-Pro,SWE-Bench_Liteデータセットを用いて評価を行った。
コード生成精度は最大17%向上し、コードカバレッジは最大99.81%向上した。
これらの結果から, メタモルフィック関係は, LLMベースのソフトウェア開発を支援する上で, 単純かつ効果的な指針となる可能性が示唆された。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - RGD: Multi-LLM Based Agent Debugger via Refinement and Generation Guidance [0.6062751776009752]
大規模言語モデル(LLM)は、コード生成タスクにおいて驚くべきポテンシャルを示しています。
LLMはタスク記述に基づいてコードを生成することができるが、精度は限られている。
コード生成と自動デバッグのためのLLMエージェントの新しいアーキテクチャ:Refinement and Guidancebug (RGD)を紹介する。
RGDはコード生成タスクを複数のステップに分割し、より明確なワークフローを確保し、自己回帰とフィードバックに基づいた反復的なコード改善を可能にする。
論文 参考訳(メタデータ) (2024-10-02T05:07:02Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Applying RLAIF for Code Generation with API-usage in Lightweight LLMs [15.366324461797582]
Reinforcement Learning from AI Feedback (RLAIF)は、さまざまな領域で大きな可能性を証明している。
本稿では,軽量 (1B パラメータ) LLM のコード生成能力を改善するための RLAIF フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:16:03Z) - MORepair: Teaching LLMs to Repair Code via Multi-Objective Fine-tuning [25.03477973238162]
プログラム修復タスクに対するLLM(Large Language Model)の微調整アプローチは、コード変更の背後にあるロジックを推論する必要性を見落としている。
サイズやアーキテクチャの異なる4つのオープンソース LLM にMOobjective を適用する。
我々の微調整戦略は、最先端のアプローチよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-04-19T05:36:21Z) - SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents [50.82665351100067]
FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。
FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
論文 参考訳(メタデータ) (2024-03-23T14:04:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。