論文の概要: Neural Models for Source Code Synthesis and Completion
- arxiv url: http://arxiv.org/abs/2402.06690v1
- Date: Thu, 8 Feb 2024 17:10:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 19:41:58.455727
- Title: Neural Models for Source Code Synthesis and Completion
- Title(参考訳): ソースコード合成と補完のためのニューラルモデル
- Authors: Mitodru Niyogi
- Abstract要約: コード提案システムへの自然言語(NL)は、NL発話をコンパイル可能なコードスニペットに変換することで、統合開発環境(IDE)の開発者を支援する。
現在のアプローチは主に意味解析に基づくハードコードなルールベースのシステムである。
我々は,NLを汎用プログラミング言語にマッピングするためのシーケンス・ツー・シーケンス深層学習モデルと訓練パラダイムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language (NL) to code suggestion systems assist developers in
Integrated Development Environments (IDEs) by translating NL utterances into
compilable code snippet. The current approaches mainly involve hard-coded,
rule-based systems based on semantic parsing. These systems make heavy use of
hand-crafted rules that map patterns in NL or elements in its syntax parse tree
to various query constructs and can only work on a limited subset of NL with a
restricted NL syntax. These systems are unable to extract semantic information
from the coding intents of the developer, and often fail to infer types, names,
and the context of the source code to get accurate system-level code
suggestions. In this master thesis, we present sequence-to-sequence deep
learning models and training paradigms to map NL to general-purpose programming
languages that can assist users with suggestions of source code snippets, given
a NL intent, and also extend auto-completion functionality of the source code
to users while they are writing source code. The developed architecture
incorporates contextual awareness into neural models which generate source code
tokens directly instead of generating parse trees/abstract meaning
representations from the source code and converting them back to source code.
The proposed pretraining strategy and the data augmentation techniques improve
the performance of the proposed architecture. The proposed architecture has
been found to exceed the performance of a neural semantic parser, TranX, based
on the BLEU-4 metric by 10.82%. Thereafter, a finer analysis for the parsable
code translations from the NL intent for CoNaLA challenge was introduced. The
proposed system is bidirectional as it can be also used to generate NL code
documentation given source code. Lastly, a RoBERTa masked language model for
Python was proposed to extend the developed system for code completion.
- Abstract(参考訳): コード提案システムへの自然言語(NL)は、NL発話をコンパイル可能なコードスニペットに変換することで、統合開発環境(IDE)の開発者を支援する。
現在のアプローチは主に意味解析に基づくハードコードなルールベースのシステムである。
これらのシステムは、NLのパターンや構文解析ツリーの要素を様々なクエリ構造にマッピングする手作りのルールを多用しており、制限されたNL構文でNLの限られたサブセットでのみ動作する。
これらのシステムは開発者のコーディング意図から意味情報を抽出できず、しばしば型や名前、ソースコードのコンテキストを推測して正確なシステムレベルのコード提案を得ることができない。
このマスター論文では,NLを汎用プログラミング言語にマッピングするためのシーケンス・ツー・シーケンスの深層学習モデルと訓練パラダイムを提示し,NLの意図を与えられたソースコードスニペットの提案を支援するとともに,ソースコードを書いているユーザに対して,ソースコードの自動補完機能を拡張する。
開発されたアーキテクチャでは、ソースコードからパースツリー/抽象表現を生成する代わりにソースコードトークンを直接生成し、ソースコードに変換する、コンテキスト認識をニューラルネットワークに組み込んでいる。
提案する事前学習戦略とデータ拡張手法は,提案アーキテクチャの性能を向上させる。
提案されたアーキテクチャは、bleu-4メトリックに基づく神経意味構文解析器tranxの性能を10.82%上回っている。
その後、CoNaLAチャレンジのためのNLインテントから解析可能なコード翻訳のより詳細な分析が導入された。
提案システムは双方向であり,ソースコードからNLコードドキュメンテーションを生成することもできる。
最後に、Python用のRoBERTaマスク言語モデルが提案され、コード補完のための開発システムを拡張した。
関連論文リスト
- CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。
CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。
ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z) - Bridging Code Semantic and LLMs: Semantic Chain-of-Thought Prompting for
Code Generation [22.219645213202178]
本稿では,SeCoT というコードの意味情報を抽出する "Semantic Chain-of-Thought" 手法を提案する。
本研究では,SeCoTが最先端の性能を実現し,大規模モデルやコード生成の可能性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-10-16T05:09:58Z) - Neural Machine Translation for Code Generation [0.7607163273993514]
コード生成のためのNMTでは、入力で表現された制約を満たすソースコードを生成する。
本稿では,コード生成文献のNMTを調査し,これまで検討されてきた様々な手法のカタログ化を行う。
本稿では,既存手法の限界と今後の研究方向性について論じる。
論文 参考訳(メタデータ) (2023-05-22T21:43:12Z) - DocCoder: Generating Code by Retrieving and Reading Docs [87.88474546826913]
コードマニュアルとドキュメントを明示的に活用するアプローチであるDocCoderを紹介します。
我々のアプローチは一般的に、どんなプログラミング言語にも適用でき、基礎となるニューラルモデルとは無関係です。
論文 参考訳(メタデータ) (2022-07-13T06:47:51Z) - Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文 参考訳(メタデータ) (2020-10-24T14:16:50Z) - Retrieve and Refine: Exemplar-based Neural Comment Generation [27.90756259321855]
同様のコードスニペットのコメントはコメントの生成に役立ちます。
我々は、与えられたコード、AST、類似したコード、そして入力として見劣りする新しいセク2seqニューラルネットワークを設計する。
約200万のサンプルを含む大規模Javaコーパスに対するアプローチを評価した。
論文 参考訳(メタデータ) (2020-10-09T09:33:10Z) - Incorporating External Knowledge through Pre-training for Natural
Language to Code Generation [97.97049697457425]
オープンドメインコード生成は、自然言語(NL)の意図から汎用プログラミング言語でコードを生成することを目的としている。
オンラインプログラミングQAフォーラムStackOverflowとプログラミング言語APIドキュメントからNL-codeペアを自動的にマイニングする。
評価の結果,2つのソースとデータ拡張と検索ベースデータ再サンプリングを組み合わせることで,コード生成テストベッドCoNaLa上でのBLEUスコアが最大2.2%向上することがわかった。
論文 参考訳(メタデータ) (2020-04-20T01:45:27Z) - Improved Code Summarization via a Graph Neural Network [96.03715569092523]
一般に、ソースコード要約技術はソースコードを入力として使用し、自然言語記述を出力する。
これらの要約を生成するために、ASTのデフォルト構造によくマッチするグラフベースのニューラルアーキテクチャを使用するアプローチを提案する。
論文 参考訳(メタデータ) (2020-04-06T17:36:42Z) - CodeBERT: A Pre-Trained Model for Programming and Natural Languages [117.34242908773061]
CodeBERTは、プログラミング言語(PL)とナット言語(NL)のための事前訓練されたモデルである。
我々はTransformerベースのニューラルアーキテクチャを用いたCodeBERTを開発した。
モデルパラメータの微調整による2つのNL-PLアプリケーション上でのCodeBERTの評価を行った。
論文 参考訳(メタデータ) (2020-02-19T13:09:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。