Fugu-MT 論文翻訳(概要): CODEP: Grammatical Seq2Seq Model for General-Purpose Code Generation

論文の概要: CODEP: Grammatical Seq2Seq Model for General-Purpose Code Generation

arxiv url: http://arxiv.org/abs/2211.00818v1
Date: Wed, 2 Nov 2022 01:40:18 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-03 13:57:42.984597
Title: CODEP: Grammatical Seq2Seq Model for General-Purpose Code Generation
Title（参考訳）: CODEP:汎用コード生成のための文法Seq2Seqモデル
Authors: Yihong Dong, Ge Li
Abstract要約: 汎用コード生成は、自然言語(NL)記述をPythonのような汎用プログラミング言語(GPL)のコードスニペットに自動的に変換することを目的としている。既存のシーケンス・ツー・シーケンス(Seq2Seq)アプローチは文法規則を無視したコードを生成する。本稿では,プッシュダウン・オートマトン(PDA)モジュールを備えた文法型Seq2Seqコード生成フレームワークであるCODEPを提案する。
参考スコア（独自算出の注目度）: 13.702504014245713
License: http://creativecommons.org/licenses/by/4.0/
Abstract: General-purpose code generation aims to automatically convert the natural language (NL) description to code snippets in a general-purpose programming language (GPL) like Python. Intrinsically, code generation is a special type of text generation that generates well-formed text, i.e., code. However, existing sequence-to-sequence (Seq2Seq) approaches generate the GPL code neglecting the grammar rules. To this end, in this paper, we make the first attempt to consider grammatical Seq2Seq models for general-purpose code generation and propose CODEP, a grammatical Seq2Seq code generation framework equipped with a Pushdown automaton (PDA) module. In the training stage, CODEP additionally incorporates the state representation and the state prediction task, which leverages PDA states to help CODEP comprehend the parsing process of the PDA module. In the inference stage, CODEP generates well-formed code with the PDA module and the joint prediction of PDA states. Furthermore, the PDA module can be directly applied to Seq2Seq models without training to ensure the grammatical correctness of the generated code. To evaluate the effectiveness of our proposed method, we construct the DPA for the most popular GPL Python and conduct extensive experiments on four benchmark datasets. The experimental results demonstrate the superiority of CODEP compared to the state-of-the-art approaches without pre-training, and the DPA module also achieves significant improvements on the pre-trained models.
Abstract（参考訳）: 汎用コード生成は、pythonのような汎用プログラミング言語(gpl)の自然言語(nl)記述をコードスニペットに自動変換することを目的としている。本質的に、コード生成は、整形されたテキスト、すなわちコードを生成する特別なタイプのテキスト生成である。しかし、既存のsequence-to-sequence(seq2seq)アプローチは文法規則を無視したgplコードを生成する。そこで本研究では,汎用コード生成のための文法Seq2Seqモデルを初めて検討し,プッシュダウンオートマトン(PDA)モジュールを備えた文法Seq2Seqコード生成フレームワークであるCODEPを提案する。トレーニング段階では、CODEPは状態表現と状態予測タスクも取り入れており、PDA状態を利用して、CODEPがPDAモジュールの解析プロセスを理解できるようにする。推論段階では、CODEPはPDAモジュールとの整形コードとPDA状態の合同予測を生成する。さらに、PDAモジュールはトレーニングなしでSeq2Seqモデルに直接適用することができ、生成されたコードの文法的正確性を保証することができる。提案手法の有効性を評価するため,最もポピュラーなGPL Python用のDPAを構築し,4つのベンチマークデータセットに対して広範な実験を行った。実験の結果, CODEP は事前学習のない最先端手法に比べて優れており, DPA モジュールは事前訓練されたモデルに対して大幅な改善を達成している。

関連論文リスト

IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
Type-Constrained Code Generation with Language Models [51.03439021895432]
本稿では,型システムを利用してコード生成を誘導する型制約デコード手法を提案する。そこで本研究では,新しい接頭辞オートマトンと,在来型を探索する手法を開発し,LLM生成コードに適切な型付けを強制するための健全なアプローチを構築した。提案手法は,コード合成,翻訳,修復作業において,コンパイルエラーを半分以上削減し,機能的正しさを著しく向上させる。
論文参考訳（メタデータ） (2025-04-12T15:03:00Z)
Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文参考訳（メタデータ） (2024-05-24T04:35:13Z)
CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。 CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文参考訳（メタデータ） (2024-05-03T02:48:55Z)
CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。 CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保存するために追加情報を埋め込む。 5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文参考訳（メタデータ） (2024-04-24T04:25:04Z)
Zero-Shot Code Representation Learning via Prompt Tuning [6.40875582886359]
コード表現を学習するためのゼロショットアプローチであるZecolerを提案する。 Zecolerは、事前訓練されたプログラミング言語モデルの上に構築されている。我々はZecolerを,コードクローン検出,コード検索,メソッド名予測,コード要約,コード生成を含む5つのコードインテリジェンスタスクで評価する。
論文参考訳（メタデータ） (2024-04-13T09:47:07Z)
Context Perception Parallel Decoder for Scene Text Recognition [52.620841341333524]
シーンテキスト認識手法は高い精度と高速な推論速度を達成するのに苦労している。本稿では、STRにおけるARデコーディングの実証的研究を行い、ARデコーダが言語文脈をモデル化するだけでなく、視覚的文脈知覚のガイダンスも提供することを明らかにする。我々は一連のCPPDモデルを構築し、提案したモジュールを既存のSTRデコーダにプラグインする。英語と中国語のベンチマーク実験により、CPPDモデルはARベースモデルよりも約8倍高速に動作し、高い競争精度を達成できることを示した。
論文参考訳（メタデータ） (2023-07-23T09:04:13Z)
Code Execution with Pre-trained Language Models [88.04688617516827]
コードインテリジェンスのトレーニング済みモデルのほとんどは実行トレースを無視しており、ソースコードと構文構造のみに依存している。我々は,大規模かつ現実的なPythonデータセットとコード実行タスクを作成するために,突然変異に基づくデータ拡張手法を開発した。次に、コード実行事前学習とカリキュラム学習を活用して意味理解を強化するトランスフォーマーモデルであるCodeExecutorを提案する。
論文参考訳（メタデータ） (2023-05-08T10:00:05Z)
Stochastic Code Generation [1.7205106391379026]
コード生成のために事前訓練された大きな言語モデルは、高品質のショートコードを生成するが、コヒーレントな長いコードを生成するのにしばしば苦労する。この問題は、長文生成のための言語モデリングにも見られる。本研究では,この手法をコード生成に適用してコヒーレンスを向上できるかを検討する。
論文参考訳（メタデータ） (2023-04-14T00:01:05Z)
Knowledge Transfer for Pseudo-code Generation from Low Resource Programming Language [13.716669765394293]
我々は、並列コード-擬似コードデータを用いて、高リソースPL(C++)で訓練されたコード-擬似コードニューラルモデルによって得られた知識の伝達に焦点をあてる。後方翻訳により生成されたC符号の成功率を23.27%向上させる。
論文参考訳（メタデータ） (2023-03-16T03:38:08Z)
PAC Prediction Sets for Large Language Models of Code [19.071829387911276]
本稿では,コンパクトに部分的プログラムとして表現可能な,制約付き予測セットの集合を考慮した解を提案する。これは、生成コードモデルのためのPAC予測セットを生成する最初の研究コントリビューションである。
論文参考訳（メタデータ） (2023-02-17T05:32:24Z)
CodeBERT: A Pre-Trained Model for Programming and Natural Languages [117.34242908773061]
CodeBERTは、プログラミング言語(PL)とナット言語(NL)のための事前訓練されたモデルである。我々はTransformerベースのニューラルアーキテクチャを用いたCodeBERTを開発した。モデルパラメータの微調整による2つのNL-PLアプリケーション上でのCodeBERTの評価を行った。
論文参考訳（メタデータ） (2020-02-19T13:09:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。