論文の概要: PanGu-Coder: Program Synthesis with Function-Level Language Modeling
- arxiv url: http://arxiv.org/abs/2207.11280v1
- Date: Fri, 22 Jul 2022 18:08:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 13:11:04.956030
- Title: PanGu-Coder: Program Synthesis with Function-Level Language Modeling
- Title(参考訳): PanGu-Coder:関数レベル言語モデリングによるプログラム合成
- Authors: Fenia Christopoulou, Gerasimos Lampouras, Milan Gritta, Guchun Zhang,
Yinpeng Guo, Zhongqi Li, Qi Zhang, Meng Xiao, Bo Shen, Lin Li, Hao Yu, Li
Yan, Pingyi Zhou, Xin Wang, Yuchi Ma, Ignacio Iacobacci, Yasheng Wang,
Guangtai Liang, Jiansheng Wei, Xin Jiang, Qianxiang Wang, Qun Liu
- Abstract要約: PanGu-Coderは、PanGu-Alphaアーキテクチャを採用した事前訓練されたデコーダのみの言語モデルである。
最初の段階ではCausal Language Modellingを使用して、生のプログラミング言語データで事前トレーニングを行います。
第2段階では、Causal Language ModellingとMasked Language Modellingを組み合わせて、自然言語プログラム定義とコード関数のゆるくキュレートされたペアをトレーニングしている。
- 参考スコア(独自算出の注目度): 47.63943623661298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present PanGu-Coder, a pretrained decoder-only language model adopting the
PanGu-Alpha architecture for text-to-code generation, i.e. the synthesis of
programming language solutions given a natural language problem description. We
train PanGu-Coder using a two-stage strategy: the first stage employs Causal
Language Modelling (CLM) to pre-train on raw programming language data, while
the second stage uses a combination of Causal Language Modelling and Masked
Language Modelling (MLM) training objectives that focus on the downstream task
of text-to-code generation and train on loosely curated pairs of natural
language program definitions and code functions. Finally, we discuss
PanGu-Coder-FT, which is fine-tuned on a combination of competitive programming
problems and code with continuous integration tests. We evaluate PanGu-Coder
with a focus on whether it generates functionally correct programs and
demonstrate that it achieves equivalent or better performance than similarly
sized models, such as CodeX, while attending a smaller context window and
training on less data.
- Abstract(参考訳): 本稿では,テキスト対コード生成にpangu-alphaアーキテクチャを応用した,プリトレーニングされたデコーダ専用言語モデルであるpangu-coderを提案する。
第1段階は生のプログラミング言語データを事前学習するためにcausal language modelling (clm) を使用し、第2段階はcausal language modelling と masked language modelling (mlm) のトレーニング目的を組み合わせることで、テキスト対コード生成の下流タスクに焦点を当て、自然言語プログラム定義とコード関数の緩やかにキュレートされたペアをトレーニングします。
最後にpangu-coder-ftについて論じる。これは競合プログラミング問題とコードを統合テストと組み合わせることで微調整されている。
我々は,PanGu-Coderを,機能的に正しいプログラムを生成するかどうかに焦点をあてて評価し,コンテキストウィンドウを小さくし,少ないデータでトレーニングしながら,CodeXのような同様のサイズのモデルよりも同等あるいは優れたパフォーマンスを実現することを示す。
関連論文リスト
- IRCoder: Intermediate Representations Make Language Models Robust
Multilingual Code Generators [55.40713784611711]
本研究では,コンパイラ中間表現を活用することで,Code-LMの多言語機能を改善する可能性について検討する。
まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。
次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。
IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文 参考訳(メタデータ) (2024-03-06T17:52:08Z) - ERNIE-Code: Beyond English-Centric Cross-lingual Pretraining for
Programming Languages [37.60016772021422]
同じプログラミング言語(PL)を扱うソフトウェアエンジニアは、異なる自然言語(NL)を話し、その逆も話す。
近年の研究では、コンピュータプログラムにおける生成前訓練の有効性が実証されているが、それらは常に英語中心である。
ERNIE-Codeは116個のNLと6個のPLのための統合事前学習言語モデルである。
論文 参考訳(メタデータ) (2022-12-13T17:21:44Z) - A Conversational Paradigm for Program Synthesis [110.94409515865867]
本稿では,大規模言語モデルを用いた対話型プログラム合成手法を提案する。
私たちは、自然言語とプログラミング言語のデータに基づいて、CodeGenと呼ばれる大規模な言語モデルのファミリーを訓練します。
本研究は,会話能力の出現と,提案した会話プログラム合成パラダイムの有効性を示すものである。
論文 参考訳(メタデータ) (2022-03-25T06:55:15Z) - Synchromesh: Reliable code generation from pre-trained language models [38.15391794443022]
コード生成のための事前学習モデルの信頼性を大幅に向上するフレームワークであるSynchromeshを提案する。
まず、TST(Target similarity Tuning)を使用して、トレーニングバンクから、セマンティックなサンプル選択の新しい方法を使用して、数ショットのサンプルを検索する。
次に、Synchromeshはサンプルをトレーニング済みの言語モデルに供給し、対象言語の有効なプログラムセットに出力を制約する一般的なフレームワークであるConstrained Semantic Decoding (CSD)を使用してプログラムをサンプリングする。
論文 参考訳(メタデータ) (2022-01-26T22:57:44Z) - DeltaLM: Encoder-Decoder Pre-training for Language Generation and
Translation by Augmenting Pretrained Multilingual Encoders [92.90543340071007]
本稿では,事前訓練された多言語エンコーダデコーダモデルDeltaLMを紹介する。
具体的には,事前学習した多言語エンコーダをデコーダで拡張し,自己指導型で事前学習する。
実験により、DeltaLMは自然言語生成と翻訳の両方のタスクにおいて、様々な強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2021-06-25T16:12:10Z) - Unified Pre-training for Program Understanding and Generation [46.89905110678675]
PLBARTは、プログラムおよび言語理解および生成タスクの幅広い範囲を実行できるシーケンス・ツー・シーケンスモデルである。
PLBARTは、JavaとPythonの関数と関連するNLテキストの広範なコレクションに、自動エンコーディングを通知することで事前トレーニングされている。
論文 参考訳(メタデータ) (2021-03-10T20:32:59Z) - CodeBERT: A Pre-Trained Model for Programming and Natural Languages [117.34242908773061]
CodeBERTは、プログラミング言語(PL)とナット言語(NL)のための事前訓練されたモデルである。
我々はTransformerベースのニューラルアーキテクチャを用いたCodeBERTを開発した。
モデルパラメータの微調整による2つのNL-PLアプリケーション上でのCodeBERTの評価を行った。
論文 参考訳(メタデータ) (2020-02-19T13:09:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。