論文の概要: Unified Pre-training for Program Understanding and Generation
- arxiv url: http://arxiv.org/abs/2103.06333v1
- Date: Wed, 10 Mar 2021 20:32:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 14:42:27.292404
- Title: Unified Pre-training for Program Understanding and Generation
- Title(参考訳): プログラム理解と生成のための統一事前学習
- Authors: Wasi Uddin Ahmad and Saikat Chakraborty and Baishakhi Ray and Kai-Wei
Chang
- Abstract要約: PLBARTは、プログラムおよび言語理解および生成タスクの幅広い範囲を実行できるシーケンス・ツー・シーケンスモデルである。
PLBARTは、JavaとPythonの関数と関連するNLテキストの広範なコレクションに、自動エンコーディングを通知することで事前トレーニングされている。
- 参考スコア(独自算出の注目度): 46.89905110678675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code summarization and generation empower conversion between programming
language (PL) and natural language (NL), while code translation avails the
migration of legacy code from one PL to another. This paper introduces PLBART,
a sequence-to-sequence model capable of performing a broad spectrum of program
and language understanding and generation tasks. PLBART is pre-trained on an
extensive collection of Java and Python functions and associated NL text via
denoising autoencoding. Experiments on language generation tasks, including
code summarization, generation, translation in seven programming languages show
that PLBART outperforms or rivals state-of-the-art models. Moreover,
experiments on discriminative tasks, e.g., program repair, clone detection, and
vulnerable code detection demonstrate PLBART's effectiveness in program
understanding. Furthermore, analysis reveals that PLBART learns program syntax,
style (e.g., identifier naming convention), logical flow (e.g., if block inside
an else block is equivalent to else if block) that are crucial to program
semantics and thus excels even with limited annotations.
- Abstract(参考訳): コード要約と生成により、プログラミング言語(PL)と自然言語(NL)の変換が促進される一方、コード翻訳はレガシーコードのPLから別のPLへのマイグレーションに有効である。
本稿では,プログラムと言語理解と生成タスクの幅広いスペクトルを実行できるシーケンス・ツー・シーケンスモデルplbartについて述べる。
PLBARTは、JavaとPythonの関数と関連するNLテキストの広範なコレクションに、自動エンコーディングを通知することで事前トレーニングされている。
コード要約、生成、7つのプログラミング言語の翻訳を含む言語生成タスクの実験は、plbartが最先端モデルよりも優れており、あるいは競合することを示している。
さらに、プログラム修復、クローン検出、脆弱なコード検出などの識別タスクの実験は、プログラム理解におけるPLBARTの有効性を示している。
さらに分析により、plbartはプログラムの意味論に不可欠なプログラム構文、スタイル(例えば識別子命名規則)、論理フロー(例えば、elseブロック内のブロックが他のifブロックと等価である場合)を学習し、限られたアノテーションでさえ優れていることが明らかになった。
関連論文リスト
- NoviCode: Generating Programs from Natural Language Utterances by Novices [59.71218039095155]
初心者非プログラマによるAPIと自然言語記述を入力とする新しいNLプログラミングタスクであるNoviCodeを提示する。
我々は、NoviCodeがコード合成領域における挑戦的なタスクであることを示し、非技術的命令から複雑なコードを生成することは、現在のText-to-Codeパラダイムを超えている。
論文 参考訳(メタデータ) (2024-07-15T11:26:03Z) - Synthetic Programming Elicitation for Text-to-Code in Very Low-Resource Programming and Formal Languages [21.18996339478024]
SPEAC(emphsynthetic programming elicitation and compilation)を紹介する。
SPEACは、より頻繁に、意味的正しさを犠牲にすることなく、構文的に正しいプログラムを生成する。
UCLID5形式検証言語のケーススタディにおいて,SPEACの性能を実証的に評価した。
論文 参考訳(メタデータ) (2024-06-05T22:16:19Z) - CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。
CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。
ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z) - CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保存するために追加情報を埋め込む。
5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文 参考訳(メタデータ) (2024-04-24T04:25:04Z) - AdaCCD: Adaptive Semantic Contrasts Discovery Based Cross Lingual
Adaptation for Code Clone Detection [69.79627042058048]
AdaCCDは、その言語でアノテーションを使わずに、新しい言語のクローンコードを検出する新しい言語間適応手法である。
5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。
論文 参考訳(メタデータ) (2023-11-13T12:20:48Z) - Understanding Programs by Exploiting (Fuzzing) Test Cases [26.8259045248779]
プログラムのより深い意味理解を実現するために,入力と出力/振る舞いの関係を学習に取り入れることを提案する。
コードの大部分の実行をトリガーするのに十分な入力を得るために,ファズテストを採用し,ファズチューニングを提案する。
提案手法の有効性は,コードクローン検出とコード分類を含む2つのプログラム理解タスクにおいて検証され,最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-05-23T01:51:46Z) - PanGu-Coder: Program Synthesis with Function-Level Language Modeling [47.63943623661298]
PanGu-Coderは、PanGu-Alphaアーキテクチャを採用した事前訓練されたデコーダのみの言語モデルである。
最初の段階ではCausal Language Modellingを使用して、生のプログラミング言語データで事前トレーニングを行います。
第2段階では、Causal Language ModellingとMasked Language Modellingを組み合わせて、自然言語プログラム定義とコード関数のゆるくキュレートされたペアをトレーニングしている。
論文 参考訳(メタデータ) (2022-07-22T18:08:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。