論文の概要: Unprecedented Code Change Automation: The Fusion of LLMs and
Transformation by Example
- arxiv url: http://arxiv.org/abs/2402.07138v1
- Date: Sun, 11 Feb 2024 09:45:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 17:18:09.250300
- Title: Unprecedented Code Change Automation: The Fusion of LLMs and
Transformation by Example
- Title(参考訳): 先例のないコード変更自動化 - LLMの融合と例による変換
- Authors: Malinda Dilhara, Abhiram Bellur, Timofey Bryksin, Danny Dig
- Abstract要約: 大規模言語モデル(LLM)は、膨大なコードデータセットに基づいてトレーニングされる。
LLMを使用して、正確性、有用性、適用性の基準を満たすコード変種を生成するベストプラクティスを特定します。
PyCraftでそれらを実装し、正しい変種を識別し、入力を平均58倍に拡張し、ターゲットコードを増やすための変更を最大39倍まで自動化するF尺度を96.6%達成しました。
- 参考スコア(独自算出の注目度): 11.618908752717786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Software developers often repeat code changes, known as "code change
patterns" (CPATs), within and across projects. Automating these CPATs
accelerates development, but current Transformation by Example (TBE) techniques
are limited by the input examples' quality and quantity, missing variations
with different syntax or flow yet semantically similar. Large Language Models
(LLMs), trained on vast code datasets, can overcome these limitations by
generating semantically equivalent, unseen CPAT variants, enhancing TBE
effectiveness.
We identified best practices for using LLMs to generate code variants meeting
criteria of correctness, usefulness, and applicability. Implementing these in
PyCraft, combining static and dynamic analysis with LLMs, we achieved an
F-measure of 96.6% in identifying correct variants, expanding inputs by 58x on
average, and automating changes to increase target codes by up to 39x. Patches
from PyCraft were submitted to projects like microsoft/DeepSpeed and
IBM/inFairness, with an 83% acceptance rate, validating our approach's
usefulness.
- Abstract(参考訳): ソフトウェア開発者はしばしばプロジェクト内およびプロジェクト間で"code change patterns"(cpats)と呼ばれるコード変更を繰り返す。
これらのcpatの自動化は開発を加速するが、例による現在のトランスフォーメーション(tbe)技術は、入力例の品質と量によって制限される。
膨大なコードデータセットに基づいてトレーニングされた大規模言語モデル(LLM)は、意味論的に等価で見えないCPAT変種を生成して、TBEの有効性を高めることで、これらの制限を克服することができる。
正確性、有用性、適用性の基準を満たすコード変種を生成するためにLLMを使用するベストプラクティスを特定した。
これらはPyCraftで実装され、静的解析と動的解析をLLMと組み合わせ、96.6%のF測定で正しい変種を識別し、入力を平均58倍拡張し、ターゲット符号を最大39倍向上させる変更を自動化する。
PyCraftのパッチは、microsoft/DeepSpeedやIBM/inFairnessといったプロジェクトに83%の受け入れ率で提出され、このアプローチの有用性を検証しました。
関連論文リスト
- When LLM-based Code Generation Meets the Software Development Process [50.82665351100067]
本稿では,ソフトウェア工学の確立した実践に触発されたコード生成フレームワークであるLCGを紹介する。
LLMエージェントは、LCGWaterfall、LCGTDD、LCGScrumといった様々なソフトウェアプロセスモデルをエミュレートする。
我々は,HumanEval,HumanEval-ET,MBPP,MBPP-ETの4つのコード生成ベンチマークでLCGを評価した。
論文 参考訳(メタデータ) (2024-03-23T14:04:48Z) - InfiCoder-Eval: Systematically Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiCoder-Evalは、コードのQAベンチマークである。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiCoder-Eval 上で 80 以上のコード LLM に対して,系統的な評価を行い,一連の知見を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - SEED: Customize Large Language Models with Sample-Efficient Adaptation for Code Generation [35.88318116340547]
コード生成のための誤り駆動学習を用いたサンプル効率適応のためのSEEDという新しい適応手法を提案する。
複数のコード生成ベンチマークでPass@1の平均相対改善率は54.7%である。
論文 参考訳(メタデータ) (2024-02-29T16:09:02Z) - CodePori: Large Scale Model for Autonomous Software Development by Using
Multi-Agents [3.8066447473175304]
大規模言語モデル(LLM)とGPT(Generative Pre-trained Transformer)は、ソフトウェア工学(SE)の分野を変えつつある。
本稿では,自然言語のプロンプトに基づく大規模かつ複雑なソフトウェアプロジェクトのコード生成を自動化する新しいモデルであるCodePoriを紹介する。
論文では、CodePoriが大規模なプロジェクトのために実行中のコードを生成し、数時間ではなく数分でソフトウェア開発プロセス全体を完了し、数ドルというコストで実行可能であることを示しています。
論文 参考訳(メタデータ) (2024-02-02T13:42:50Z) - Mutation-based Consistency Testing for Evaluating the Code Understanding
Capability of LLMs [5.549095839198671]
大きな言語モデル(LLM)は、自然言語とプログラミング言語の両方を処理する際、顕著な能力を示している。
本稿では,LLMのコード理解性能を評価する新しい手法を提案し,特にコードと記述の微妙な差異に着目した。
演算子置換やステートメント削除など,さまざまなタイプのコード突然変異を適用して,一貫性のないコード記述ペアを生成する。
我々は,現在最先端のコード生成ベンチマークであるHumanEval-Xを用いて,GPT-3.5とGPT-4の2つのLLMのケーススタディを行う。
論文 参考訳(メタデータ) (2024-01-11T14:27:43Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - ML-Bench: Evaluating Large Language Models for Code Generation in Repository-Level Machine Learning Tasks [76.85930757493409]
大規模言語モデル(LLM)は、コード生成ベンチマークの習熟度を示しているが、これらの結果を実用的な開発シナリオに変換することは依然として難しい。
ML-Benchは、レポジトリレベルのオープンソースライブラリを統合して機械学習タスクを完了させるLLMの機能を評価するために設計された、新しいベンチマークである。
以上の結果から, GPT-4は他のLSMよりも優れており, 課題の複雑さを浮き彫りにしたタスクは33.82%に過ぎなかった。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Bridging Code Semantic and LLMs: Semantic Chain-of-Thought Prompting for
Code Generation [22.219645213202178]
本稿では,SeCoT というコードの意味情報を抽出する "Semantic Chain-of-Thought" 手法を提案する。
本研究では,SeCoTが最先端の性能を実現し,大規模モデルやコード生成の可能性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-10-16T05:09:58Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Learning the Relation between Code Features and Code Transforms with
Structured Prediction [13.62633524166298]
条件付きランダムフィールド(CRF)を用いたASTノードのレベルでのコード変換を構造的に予測する最初の手法を提案する。
このアプローチはまず、特定のASTノードに特定のコード変換がどのように適用されるかをキャプチャする確率モデルをオフラインで学習し、次に学習したモデルを使用して、任意の新しい、目に見えないコードスニペットの変換を予測する。
論文 参考訳(メタデータ) (2019-07-22T12:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。