論文の概要: Assured LLM-Based Software Engineering
- arxiv url: http://arxiv.org/abs/2402.04380v1
- Date: Tue, 6 Feb 2024 20:38:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 18:11:39.376572
- Title: Assured LLM-Based Software Engineering
- Title(参考訳): LLMベースのソフトウェアエンジニアリングの保証
- Authors: Nadia Alshahwan, Mark Harman, Inna Harper, Alexandru Marginean, Shubho
Sengupta, Eddy Wang
- Abstract要約: この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
- 参考スコア(独自算出の注目度): 51.003878077888686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we address the following question: How can we use Large
Language Models (LLMs) to improve code independently of a human, while ensuring
that the improved code
- does not regress the properties of the original code?
- improves the original in a verifiable and measurable way?
To address this question, we advocate Assured LLM-Based Software Engineering;
a generate-and-test approach, inspired by Genetic Improvement. Assured LLMSE
applies a series of semantic filters that discard code that fails to meet these
twin guarantees. This overcomes the potential problem of LLM's propensity to
hallucinate. It allows us to generate code using LLMs, independently of any
human. The human plays the role only of final code reviewer, as they would do
with code generated by other human engineers.
This paper is an outline of the content of the keynote by Mark Harman at the
International Workshop on Interpretability, Robustness, and Benchmarking in
Neural Software Engineering, Monday 15th April 2024, Lisbon, Portugal.
- Abstract(参考訳): 本稿では、人間とは独立してコードを改善するために、どのようにしてLarge Language Models(LLMs)を使用できるか、そして、改善されたコード – 元のコードの性質を後退させないことを保証するか、という疑問に対処する。
-検証可能な測定可能な方法でオリジナルを改善するか?
この問題に対処するため,遺伝子改良にインスパイアされた生成とテストのアプローチである Assured LLM-based Software Engineering を提唱する。
保証されたLLMSEは一連のセマンティックフィルタを適用し、これら2つの保証を満たしていないコードを破棄する。
これはLLMの幻覚への適合性の潜在的な問題を克服する。
LLMを使って、どんな人間からも独立してコードを生成することができます。
他のヒューマンエンジニアが生成したコードで行うように、人間は最終的なコードレビュアーの役割のみを担います。
この記事では,2024年4月15日,ポルトガルのリスボンで開催されたInternational Workshop on Interpretability, Robustness, and Benchmarking in Neural Software EngineeringのMark Harman氏の基調講演の内容の概要を紹介する。
関連論文リスト
- Artificial-Intelligence Generated Code Considered Harmful: A Road Map for Secure and High-Quality Code Generation [2.793781561647737]
人書きコードとLLM生成コードのセキュリティと品質を比較した。
LLMは、必要な機能を実装するのに失敗する間違ったコードを生成することができることがわかった。
Flukeingによると、LLMの生成したコードは、人間が書いたコードよりもハングやクラッシュしやすい。
論文 参考訳(メタデータ) (2024-09-27T23:41:51Z) - InverseCoder: Unleashing the Power of Instruction-Tuned Code LLMs with Inverse-Instruct [43.7550233177368]
本稿では,逆ではなくコードスニペットからの命令を要約したINVERSE-INSTRUCTを提案する。
InverseCoder というコード LLM のシリーズを提示する。これは、広範囲のベンチマークにおいて、元のコード LLM のパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2024-07-08T08:00:05Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
そこで本研究では,コードと書き直された変種との類似性に基づいて,ゼロショット合成符号検出器を提案する。
以上の結果から,既存のテキスト用合成コンテンツ検出装置よりも顕著な向上が見られた。
論文 参考訳(メタデータ) (2024-05-25T08:57:28Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Human-Instruction-Free LLM Self-Alignment with Limited Samples [64.69906311787055]
本研究では,人間の関与なしに,大規模言語モデル(LLM)を反復的に自己調整するアルゴリズムを提案する。
既存の研究と異なり、我々のアルゴリズムは人造指示にも報酬にも依存せず、人間の関与を著しく減らしている。
提案手法は,LLMの自己一般化能力を解き明かし,ほぼゼロに近い人的監督と整合性を持たせることができることを示す。
論文 参考訳(メタデータ) (2024-01-06T14:00:12Z) - DeceptPrompt: Exploiting LLM-driven Code Generation via Adversarial
Natural Language Instructions [27.489622263456983]
DeceptPromptは、コードLLMを駆動し、脆弱性のある機能の正しいコードを生成する、逆の自然言語命令を生成するアルゴリズムである。
最適化プレフィックス/サフィックスを適用する場合、アタック成功率(ASR)はプレフィックス/サフィックスを適用せずに平均50%向上する。
論文 参考訳(メタデータ) (2023-12-07T22:19:06Z) - Can ChatGPT replace StackOverflow? A Study on Robustness and Reliability
of Large Language Model Code Generation [8.575560293086289]
大規模言語モデル(LLM)は、自然言語を理解し、プログラミングコードを生成する素晴らしい能力を示している。
生成されたコードにおけるAPIの誤用は、リソースリークやプログラムクラッシュといった深刻な問題を引き起こす可能性がある。
論文 参考訳(メタデータ) (2023-08-20T18:36:28Z) - Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of
Large Language Models for Code Generation [20.45045253933097]
LLM合成コードの機能的正しさを厳格に評価するコード合成評価フレームワークであるEvalPlusを提案する。
EvalPlusは、自動テスト入力ジェネレータによって新たに生成された大量のテストケースで、所定の評価データセットを拡張する。
我々は、HumanEval+が、これまで検出されていなかった大量の間違ったコードをキャッチできることを示します。
論文 参考訳(メタデータ) (2023-05-02T05:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。