論文の概要: Large Language Models and Simple, Stupid Bugs
- arxiv url: http://arxiv.org/abs/2303.11455v1
- Date: Mon, 20 Mar 2023 21:14:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 17:15:13.434036
- Title: Large Language Models and Simple, Stupid Bugs
- Title(参考訳): 大きな言語モデルとシンプルで愚かなバグ
- Authors: Kevin Jesse, Toufique Ahmed, Premkumar T. Devanbu, Emily Morgan
- Abstract要約: Copilotは大きな言語モデル(LLM)であるCodexを使用して、前の"prompt"で条件付きコードを完成させる。
しかし、Codexは、バグや脆弱性を含む可能性のあるコードで、公開GitHubリポジトリ、viz.でトレーニングされている。
Codex と類似の LLM はいくつかの SStuB を避けるのに役立ちますが、既知の SStuB を既知の SStuB の 2 倍の確率で生成します。
- 参考スコア(独自算出の注目度): 1.194321135334894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advent of powerful neural language models, AI-based systems to
assist developers in coding tasks are becoming widely available; Copilot is one
such system. Copilot uses Codex, a large language model (LLM), to complete code
conditioned on a preceding "prompt". Codex, however, is trained on public
GitHub repositories, viz., on code that may include bugs and vulnerabilities.
Previous studies [1], [2] show Codex reproduces vulnerabilities seen in
training. In this study, we examine how prone Codex is to generate an
interesting bug category, single statement bugs, commonly referred to as
simple, stupid bugs or SStuBs in the MSR community. We find that Codex and
similar LLMs do help avoid some SStuBs, but do produce known, verbatim SStuBs
as much as 2x as likely than known, verbatim correct code. We explore the
consequences of the Codex generated SStuBs and propose avoidance strategies
that suggest the possibility of reducing the production of known, verbatim
SStubs, and increase the possibility of producing known, verbatim fixes.
- Abstract(参考訳): 強力なニューラルネットワークモデルの出現に伴い、開発者がコーディングタスクを補助するAIベースのシステムが広く利用できるようになった。
Copilotは大きな言語モデル(LLM)であるCodexを使用して、前の"prompt"で条件付きコードを完成させる。
しかし、Codexは、バグや脆弱性を含む可能性のあるコードで、公開GitHubリポジトリ、viz.でトレーニングされている。
以前の研究 [1], [2] では、codex はトレーニングで見られる脆弱性を再現している。
本研究では,Codexが興味深いバグカテゴリ,単一ステートメントバグ,いわゆる単純なバグ,あるいはSStuBをMSRコミュニティで生成する傾向について検討する。
Codex や他の LLM はいくつかの SStuB を避けるのに役立ちますが、既知の SStuB は 既知の SStuB の 2 倍の確率で生成します。
我々は,コーデックスが生成するスタブの帰結を探索し,既知のスタブの生成を減少させる可能性を示唆する回避戦略を提案し,既知のスタブの修正の可能性を高める。
関連論文リスト
- Bugs in Large Language Models Generated Code [12.625305075672456]
コード用の大規模言語モデル(LLM)が最近注目を集めている。
人間書きのコードと同様、LLM生成コードはバグを起こしやすい。
本稿では,3つのLLMを用いて生成されたコードから収集した333個のバグのサンプルについて検討する。
論文 参考訳(メタデータ) (2024-03-13T20:12:01Z) - Large Language Models of Code Fail at Completing Code with Potential
Bugs [30.80172644795715]
リアルタイムコード提案に触発されたバグコード補完問題について検討する。
潜在的なバグの存在は、高性能なCode-LLMの生成性能を著しく低下させる。
論文 参考訳(メタデータ) (2023-06-06T06:35:27Z) - CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。
汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。
特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文 参考訳(メタデータ) (2023-06-05T20:39:08Z) - Code Execution with Pre-trained Language Models [88.04688617516827]
コードインテリジェンスのトレーニング済みモデルのほとんどは実行トレースを無視しており、ソースコードと構文構造のみに依存している。
我々は,大規模かつ現実的なPythonデータセットとコード実行タスクを作成するために,突然変異に基づくデータ拡張手法を開発した。
次に、コード実行事前学習とカリキュラム学習を活用して意味理解を強化するトランスフォーマーモデルであるCodeExecutorを提案する。
論文 参考訳(メタデータ) (2023-05-08T10:00:05Z) - Codex Hacks HackerRank: Memorization Issues and a Framework for Code
Synthesis Evaluation [17.63332237267557]
我々は、人気のある競合プログラミングポータルであるHackerRankから115のPython問題文に基づいて、Codexモデルのコード合成機能を評価する。
評価の結果、CodexはPythonに精通しており、ゼロショット環境では96%、数ショット環境では100%の問題を解決していることがわかった。
論文 参考訳(メタデータ) (2022-12-06T00:53:38Z) - Coder Reviewer Reranking for Code Generation [56.80381384717]
本稿では,コード言語モデルから多様なプログラムを抽出し,モデル確率で再ランク付けする手法として,Coder-Reviewerの再ランク付けを提案する。
実験の結果、Coder-Reviewerのリランクは、Coderモデルのみのリランクよりも一貫性と大幅な改善をもたらすことが示された。
Coder-Reviewerのリランクは、プロンプトによって実装が容易で、異なるプログラミング言語に一般化でき、既定のハイパーパラメータとうまく機能する。
論文 参考訳(メタデータ) (2022-11-29T18:56:33Z) - InCoder: A Generative Model for Code Infilling and Synthesis [88.46061996766348]
InCoderは、プログラム合成(左から右への生成)と編集(埋め込み)が可能な統合生成モデルである。
InCoderは、許可されたコードの大きなコーパスからコードファイルを生成するように訓練されている。
私たちのモデルは、ゼロショットコードの埋め込みを直接実行できる最初の生成モデルです。
論文 参考訳(メタデータ) (2022-04-12T16:25:26Z) - A Systematic Evaluation of Large Language Models of Code [88.34057460577957]
コードの大規模な言語モデル(LM)は、最近、コードを完成させ、自然言語記述からコードを合成する大きな可能性を示しています。
現在の最先端のコードLMは公開されておらず、モデルやデータ設計の決定について多くの疑問が残されている。
Codexはオープンソースではありませんが、既存のオープンソースモデルはいくつかのプログラミング言語でクローズな結果が得られることが分かりました。
GPT-2アーキテクチャに基づいた2.7Bパラメータを持つ新しいモデルPolyCoderをリリースし、12のプログラミング言語を1台のマシンで249GBのコードでトレーニングした。
論文 参考訳(メタデータ) (2022-02-26T15:53:55Z) - Can OpenAI Codex and Other Large Language Models Help Us Fix Security
Bugs? [8.285068188878578]
コード修復における大規模言語モデル (LLM) の利用について検討する。
安全でないコードの修正版を生成するためにLLMをコークスするプロンプトを設計する際の課題について検討する。
実験の結果、LLMは人工的に生成されたシナリオと手作りのシナリオの100%をまとめて修復できることがわかった。
論文 参考訳(メタデータ) (2021-12-03T19:15:02Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z) - Predicting Vulnerability In Large Codebases With Deep Code
Representation [6.357681017646283]
ソフトウェアエンジニアは様々なモジュールのコードを書きます。
過去に(異なるモジュールで)修正された同様の問題やバグも、本番コードで再び導入される傾向にある。
ソースコードから生成した抽象構文木(AST)の深部表現とアクティブフィードバックループを用いた,AIに基づく新しいシステムを開発した。
論文 参考訳(メタデータ) (2020-04-24T13:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。