論文の概要: LLM Assisted Coding with Metamorphic Specification Mutation Agent
- arxiv url: http://arxiv.org/abs/2511.18249v1
- Date: Sun, 23 Nov 2025 02:30:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.721361
- Title: LLM Assisted Coding with Metamorphic Specification Mutation Agent
- Title(参考訳): メタモルフィック・スペック・ミューテーション・エージェントを用いたLLM符号化
- Authors: Mostafijur Rahman Akhond, Gias Uddin,
- Abstract要約: メタモルフィック関係は、意味論的に等価な突然変異を生成する基本的なメカニズムとして機能する。
CodeMetaAgent (CMA)は、タスク仕様を体系的に洗練し、セマンティックに制約されたテストケースを生成する。
我々のフレームワークはHumanEval-Pro、MBPP-Pro、SWE-Bench_Liteデータセットで評価されている。
- 参考スコア(独自算出の注目度): 2.2917707112773593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Metamorphic Relations (MRs) serve as a foundational mechanism for generating semantically equivalent mutations. Software engineering has advanced significantly in recent years with the advent of Large Language Models (LLMs). However, the reliability of LLMs in software engineering is often compromised by ambiguities and inconsistencies due to improper user specification. To address this challenge, we present CodeMetaAgent (CMA), a metamorphic relation-driven LLM agent that systematically refines task specifications and generates semantically constrained test cases. Our proposed framework uses MRs with LLMs to improve generation consistency and reduce variability caused by specifications, unlike the traditional use of MRs as post validations. Our framework has been evaluated on the HumanEval-Pro, MBPP-Pro, and SWE-Bench_Lite datasets using the GPT-4o, Mistral Large, GPT-OSS, and Qwen3-Coder models. It improved code generation accuracy by up to 17% and achieved code coverage gains of up to 99.81%. These results show that metamorphic relations can be a simple but effective guide in assisting LLM-based software development.
- Abstract(参考訳): メタモルフィックリレーショナル(MR)は、意味論的に等価な突然変異を生成する基本的なメカニズムとして機能する。
近年,Large Language Models (LLMs) が出現し,ソフトウェア工学が著しく進歩している。
しかし、ソフトウェア工学におけるLLMの信頼性は、不適切なユーザー仕様のために曖昧さと矛盾によってしばしば損なわれる。
この課題に対処するため,CodeMetaAgent (CMA) は,タスク仕様を体系的に洗練し,意味的に制約されたテストケースを生成するメタモルフィック関係駆動型LLMエージェントである。
提案フレームワークは,従来のMRをポストバリデーションとして使用しているのとは異なり,LLMを用いたMRを用いて生成一貫性を改善し,仕様による変動を低減する。
我々は,GPT-4o,Mistral Large,GPT-OSS,Qwen3-Coderモデルを用いて,HumanEval-Pro,MBPP-Pro,SWE-Bench_Liteデータセットを用いて評価を行った。
コード生成精度は最大17%向上し、コードカバレッジは最大99.81%向上した。
これらの結果から, メタモルフィック関係は, LLMベースのソフトウェア開発を支援する上で, 単純かつ効果的な指針となる可能性が示唆された。
関連論文リスト
- LM4Opt-RA: A Multi-Candidate LLM Framework with Structured Ranking for Automating Network Resource Allocation [0.7933039558471408]
我々は,複雑な解析的および数学的推論タスクに,文脈的理解が不要であることに対処する。
既存のベンチマークデータセットは、動的な環境、変数、不均一な制約でそのような問題の複雑さに対処できない。
NL4RAは、LP、ILP、MILPとして定式化された50のリソース割り当て最適化問題からなるキュレートデータセットである。
次に,パラメータ数が異なるオープンソースのLLMの性能評価を行った。
論文 参考訳(メタデータ) (2025-11-13T23:19:43Z) - DAG-Math: Graph-Guided Mathematical Reasoning in LLMs [54.231935013127206]
大型言語モデル (LLM) は, CoT (Chain-of-Thought) による数学的問題に対して高い性能を示す
我々は、有向非巡回グラフ(DAG)上の一定の規則に基づくプロセスとしてCoTをモデル化することを提案する。
ここでは,モデルのCoT軌道がDAG構造にどの程度よく依存するかを定量化する計量である論理的近接性を導入する。
論文 参考訳(メタデータ) (2025-10-19T21:05:17Z) - LLM-based Vulnerability Discovery through the Lens of Code Metrics [6.339440992743381]
大規模言語モデル(LLM)は、ソフトウェア工学の多くのタスクに優れています。
脆弱性発見に活用する進歩は 近年 停滞しています。
論文 参考訳(メタデータ) (2025-09-23T15:03:05Z) - Graft: Integrating the Domain Knowledge via Efficient Parameter Synergy for MLLMs [56.76586846269894]
MLLM(Multimodal Large Language Models)は、様々な領域で成功している。
その重要性にもかかわらず、ドメイン固有のMLLM間の知識共有の研究はほとんど未調査のままである。
専門家機能のモジュール構成を可能にする統一パラメータ統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-30T15:07:41Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - RGD: Multi-LLM Based Agent Debugger via Refinement and Generation Guidance [0.6062751776009752]
大規模言語モデル(LLM)は、コード生成タスクにおいて驚くべきポテンシャルを示しています。
LLMはタスク記述に基づいてコードを生成することができるが、精度は限られている。
コード生成と自動デバッグのためのLLMエージェントの新しいアーキテクチャ:Refinement and Guidancebug (RGD)を紹介する。
RGDはコード生成タスクを複数のステップに分割し、より明確なワークフローを確保し、自己回帰とフィードバックに基づいた反復的なコード改善を可能にする。
論文 参考訳(メタデータ) (2024-10-02T05:07:02Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Applying RLAIF for Code Generation with API-usage in Lightweight LLMs [15.366324461797582]
Reinforcement Learning from AI Feedback (RLAIF)は、さまざまな領域で大きな可能性を証明している。
本稿では,軽量 (1B パラメータ) LLM のコード生成能力を改善するための RLAIF フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:16:03Z) - MORepair: Teaching LLMs to Repair Code via Multi-Objective Fine-tuning [25.03477973238162]
プログラム修復タスクに対するLLM(Large Language Model)の微調整アプローチは、コード変更の背後にあるロジックを推論する必要性を見落としている。
サイズやアーキテクチャの異なる4つのオープンソース LLM にMOobjective を適用する。
我々の微調整戦略は、最先端のアプローチよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-04-19T05:36:21Z) - SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents [50.82665351100067]
FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。
FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
論文 参考訳(メタデータ) (2024-03-23T14:04:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。