論文の概要: CODEP: Grammatical Seq2Seq Model for General-Purpose Code Generation
- arxiv url: http://arxiv.org/abs/2211.00818v1
- Date: Wed, 2 Nov 2022 01:40:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 13:57:42.984597
- Title: CODEP: Grammatical Seq2Seq Model for General-Purpose Code Generation
- Title(参考訳): CODEP:汎用コード生成のための文法Seq2Seqモデル
- Authors: Yihong Dong, Ge Li
- Abstract要約: 汎用コード生成は、自然言語(NL)記述をPythonのような汎用プログラミング言語(GPL)のコードスニペットに自動的に変換することを目的としている。
既存のシーケンス・ツー・シーケンス(Seq2Seq)アプローチは文法規則を無視したコードを生成する。
本稿では,プッシュダウン・オートマトン(PDA)モジュールを備えた文法型Seq2Seqコード生成フレームワークであるCODEPを提案する。
- 参考スコア(独自算出の注目度): 13.702504014245713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General-purpose code generation aims to automatically convert the natural
language (NL) description to code snippets in a general-purpose programming
language (GPL) like Python. Intrinsically, code generation is a special type of
text generation that generates well-formed text, i.e., code. However, existing
sequence-to-sequence (Seq2Seq) approaches generate the GPL code neglecting the
grammar rules. To this end, in this paper, we make the first attempt to
consider grammatical Seq2Seq models for general-purpose code generation and
propose CODEP, a grammatical Seq2Seq code generation framework equipped with a
Pushdown automaton (PDA) module. In the training stage, CODEP additionally
incorporates the state representation and the state prediction task, which
leverages PDA states to help CODEP comprehend the parsing process of the PDA
module. In the inference stage, CODEP generates well-formed code with the PDA
module and the joint prediction of PDA states. Furthermore, the PDA module can
be directly applied to Seq2Seq models without training to ensure the
grammatical correctness of the generated code. To evaluate the effectiveness of
our proposed method, we construct the DPA for the most popular GPL Python and
conduct extensive experiments on four benchmark datasets. The experimental
results demonstrate the superiority of CODEP compared to the state-of-the-art
approaches without pre-training, and the DPA module also achieves significant
improvements on the pre-trained models.
- Abstract(参考訳): 汎用コード生成は、pythonのような汎用プログラミング言語(gpl)の自然言語(nl)記述をコードスニペットに自動変換することを目的としている。
本質的に、コード生成は、整形されたテキスト、すなわちコードを生成する特別なタイプのテキスト生成である。
しかし、既存のsequence-to-sequence(seq2seq)アプローチは文法規則を無視したgplコードを生成する。
そこで本研究では,汎用コード生成のための文法Seq2Seqモデルを初めて検討し,プッシュダウンオートマトン(PDA)モジュールを備えた文法Seq2Seqコード生成フレームワークであるCODEPを提案する。
トレーニング段階では、CODEPは状態表現と状態予測タスクも取り入れており、PDA状態を利用して、CODEPがPDAモジュールの解析プロセスを理解できるようにする。
推論段階では、CODEPはPDAモジュールとの整形コードとPDA状態の合同予測を生成する。
さらに、PDAモジュールはトレーニングなしでSeq2Seqモデルに直接適用することができ、生成されたコードの文法的正確性を保証することができる。
提案手法の有効性を評価するため,最もポピュラーなGPL Python用のDPAを構築し,4つのベンチマークデータセットに対して広範な実験を行った。
実験の結果, CODEP は事前学習のない最先端手法に比べて優れており, DPA モジュールは事前訓練されたモデルに対して大幅な改善を達成している。
関連論文リスト
- How to get better embeddings with code pre-trained models? An empirical
study [6.220333404184779]
下流分類タスクの埋め込みを生成するために,5つの異なるコード事前訓練モデル(PTM)について検討する。
特別なトークンによって得られた埋め込みは、コードスニペット全体の意味情報を十分に集約していないことが分かりました。
PTMの事前学習と同様、コードデータとテキストデータをマージして得られるコード埋め込みの品質は低く、よりリッチなセマンティック情報を保証できない。
論文 参考訳(メタデータ) (2023-11-14T10:44:21Z) - Compositional Program Generation for Few-Shot Systematic Generalization [59.57656559816271]
コンポジションプログラムジェネレータ(CPG)と呼ばれるニューロシンボリックアーキテクチャに関する研究
CPGには3つの重要な特徴がある: 文法規則の形で、テキストモジュラリティ、テキストコンポジション、テキストタストラクションである。
SCAN と COGS のベンチマークでは,SCAN の14例と COGS の22例を使用して,完全な一般化を実現している。
論文 参考訳(メタデータ) (2023-09-28T14:33:20Z) - Context Perception Parallel Decoder for Scene Text Recognition [52.620841341333524]
シーンテキスト認識手法は高い精度と高速な推論速度を達成するのに苦労している。
本稿では、STRにおけるARデコーディングの実証的研究を行い、ARデコーダが言語文脈をモデル化するだけでなく、視覚的文脈知覚のガイダンスも提供することを明らかにする。
我々は一連のCPPDモデルを構築し、提案したモジュールを既存のSTRデコーダにプラグインする。英語と中国語のベンチマーク実験により、CPPDモデルはARベースモデルよりも約8倍高速に動作し、高い競争精度を達成できることを示した。
論文 参考訳(メタデータ) (2023-07-23T09:04:13Z) - Exploring Continual Learning for Code Generation Models [80.78036093054855]
継続的学習(CL)は、コードドメインの中でまだ過小評価されていない重要な側面である。
コード生成,翻訳,要約,改良など,幅広いタスクをカバーするCodeTask-CLというベンチマークを導入する。
即時選択機構の不安定な訓練により,プロンプトプール (PP) などの有効手法が破滅的な忘れ込みに悩まされることが判明した。
論文 参考訳(メタデータ) (2023-07-05T16:58:39Z) - Code Execution with Pre-trained Language Models [88.04688617516827]
コードインテリジェンスのトレーニング済みモデルのほとんどは実行トレースを無視しており、ソースコードと構文構造のみに依存している。
我々は,大規模かつ現実的なPythonデータセットとコード実行タスクを作成するために,突然変異に基づくデータ拡張手法を開発した。
次に、コード実行事前学習とカリキュラム学習を活用して意味理解を強化するトランスフォーマーモデルであるCodeExecutorを提案する。
論文 参考訳(メタデータ) (2023-05-08T10:00:05Z) - Stochastic Code Generation [1.7205106391379026]
コード生成のために事前訓練された大きな言語モデルは、高品質のショートコードを生成するが、コヒーレントな長いコードを生成するのにしばしば苦労する。
この問題は、長文生成のための言語モデリングにも見られる。
本研究では,この手法をコード生成に適用してコヒーレンスを向上できるかを検討する。
論文 参考訳(メタデータ) (2023-04-14T00:01:05Z) - Knowledge Transfer for Pseudo-code Generation from Low Resource
Programming Language [13.716669765394293]
我々は、並列コード-擬似コードデータを用いて、高リソースPL(C++)で訓練されたコード-擬似コードニューラルモデルによって得られた知識の伝達に焦点をあてる。
後方翻訳により生成されたC符号の成功率を23.27%向上させる。
論文 参考訳(メタデータ) (2023-03-16T03:38:08Z) - PAC Prediction Sets for Large Language Models of Code [19.071829387911276]
本稿では,コンパクトに部分的プログラムとして表現可能な,制約付き予測セットの集合を考慮した解を提案する。
これは、生成コードモデルのためのPAC予測セットを生成する最初の研究コントリビューションである。
論文 参考訳(メタデータ) (2023-02-17T05:32:24Z) - Incorporating External Knowledge through Pre-training for Natural
Language to Code Generation [97.97049697457425]
オープンドメインコード生成は、自然言語(NL)の意図から汎用プログラミング言語でコードを生成することを目的としている。
オンラインプログラミングQAフォーラムStackOverflowとプログラミング言語APIドキュメントからNL-codeペアを自動的にマイニングする。
評価の結果,2つのソースとデータ拡張と検索ベースデータ再サンプリングを組み合わせることで,コード生成テストベッドCoNaLa上でのBLEUスコアが最大2.2%向上することがわかった。
論文 参考訳(メタデータ) (2020-04-20T01:45:27Z) - CodeBERT: A Pre-Trained Model for Programming and Natural Languages [117.34242908773061]
CodeBERTは、プログラミング言語(PL)とナット言語(NL)のための事前訓練されたモデルである。
我々はTransformerベースのニューラルアーキテクチャを用いたCodeBERTを開発した。
モデルパラメータの微調整による2つのNL-PLアプリケーション上でのCodeBERTの評価を行った。
論文 参考訳(メタデータ) (2020-02-19T13:09:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。