論文の概要: Knowledge Transfer for Pseudo-code Generation from Low Resource
Programming Language
- arxiv url: http://arxiv.org/abs/2303.09062v1
- Date: Thu, 16 Mar 2023 03:38:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 16:54:31.678295
- Title: Knowledge Transfer for Pseudo-code Generation from Low Resource
Programming Language
- Title(参考訳): 低リソース言語からの擬似コード生成のための知識伝達
- Authors: Ankita Sontakke, Kanika Kalra, Manasi Patwardhan, Lovekesh Vig,
Raveendra Kumar Medicherla, Ravindra Naik, Shrishti Pradhan
- Abstract要約: 我々は、並列コード-擬似コードデータを用いて、高リソースPL(C++)で訓練されたコード-擬似コードニューラルモデルによって得られた知識の伝達に焦点をあてる。
後方翻訳により生成されたC符号の成功率を23.27%向上させる。
- 参考スコア(独自算出の注目度): 13.716669765394293
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Generation of pseudo-code descriptions of legacy source code for software
maintenance is a manually intensive task. Recent encoder-decoder language
models have shown promise for automating pseudo-code generation for high
resource programming languages such as C++, but are heavily reliant on the
availability of a large code-pseudocode corpus. Soliciting such pseudocode
annotations for codes written in legacy programming languages (PL) is a time
consuming and costly affair requiring a thorough understanding of the source
PL. In this paper, we focus on transferring the knowledge acquired by the
code-to-pseudocode neural model trained on a high resource PL (C++) using
parallel code-pseudocode data. We aim to transfer this knowledge to a legacy PL
(C) with no PL-pseudocode parallel data for training. To achieve this, we
utilize an Iterative Back Translation (IBT) approach with a novel test-cases
based filtration strategy, to adapt the trained C++-to-pseudocode model to
C-to-pseudocode model. We observe an improvement of 23.27% in the success rate
of the generated C codes through back translation, over the successive IBT
iteration, illustrating the efficacy of our approach.
- Abstract(参考訳): ソフトウェアメンテナンスのためのレガシーソースコードの擬似コード記述の生成は、手作業による集中的な作業である。
最近のエンコーダ・デコーダ言語モデルは、C++のような高リソースプログラミング言語で擬似コード生成を自動化することを約束している。
レガシープログラミング言語(PL)で書かれたコードに対して、そのような擬似コードアノテーションを要求することは、ソースPLを十分に理解する必要のある時間とコストのかかる問題である。
本稿では,並列コード-pseudocodeデータを用いて,高資源pl(c++)上で訓練されたコード-pseudocodeニューラルモデルによって得られた知識の伝達に焦点をあてる。
我々は,この知識をPL-pseudocode並列データを持たないレガシPL(C)に伝達することを目指している。
そこで本研究では,新しいテストケースベースのフィルタリング手法を用いて,C++-to-pseudocodeモデルのC-to-pseudocodeモデルに適用する。
提案手法は, 逆翻訳, IBT反復によるC符号の成功率を23.27%向上させ, 提案手法の有効性を明らかにした。
関連論文リスト
- Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。
しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。
本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文 参考訳(メタデータ) (2024-05-24T04:35:13Z) - CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。
CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。
ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z) - CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保存するために追加情報を埋め込む。
5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文 参考訳(メタデータ) (2024-04-24T04:25:04Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - StructCoder: Structure-Aware Transformer for Code Generation [13.797842927671846]
本稿では、構文とデータフローの両方をモデル化し、生成されたコードの品質を向上させる構造対応トランスフォーマーデコーダを提案する。
提案したStructCoderモデルは、コード翻訳およびテキスト・トゥ・コード生成タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-06-10T17:26:31Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for
Code Understanding and Generation [36.47905744758698]
我々は、開発者が指定した識別子から伝達されるコードセマンティクスをよりよく活用する、事前訓練されたエンコーダ-デコーダ変換モデルであるCodeT5を提案する。
我々のモデルは、コード理解と生成タスクの両方をシームレスにサポートし、マルチタスク学習を可能にする統一的なフレームワークを採用している。
論文 参考訳(メタデータ) (2021-09-02T12:21:06Z) - Project-Level Encoding for Neural Source Code Summarization of
Subroutines [6.939768185086755]
コード要約のモデルを改善するプロジェクトレベルのエンコーダを提案する。
我々はこの表現を用いて、最先端のニューラルネットワーク要約技術のエンコーダを強化する。
論文 参考訳(メタデータ) (2021-03-22T06:01:07Z) - InferCode: Self-Supervised Learning of Code Representations by
Predicting Subtrees [17.461451218469062]
本稿では,自己言語学習機構をソースコードモデルに適用することにより,制限を克服するinfercodeを提案する。
ASTのサブツリーは、人間のラベル付けや高価なグラフ構築のオーバーヘッドなしにコード表現をトレーニングするためのラベルとして、InferCodeで扱われる。
Code2Vec、Code2Seq、ASTNNなど、同じ下流タスクに適用される以前のコード学習技術と比較して、事前に訓練されたInferCodeモデルを使用して、より高いパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2020-12-13T10:33:41Z) - Incorporating External Knowledge through Pre-training for Natural
Language to Code Generation [97.97049697457425]
オープンドメインコード生成は、自然言語(NL)の意図から汎用プログラミング言語でコードを生成することを目的としている。
オンラインプログラミングQAフォーラムStackOverflowとプログラミング言語APIドキュメントからNL-codeペアを自動的にマイニングする。
評価の結果,2つのソースとデータ拡張と検索ベースデータ再サンプリングを組み合わせることで,コード生成テストベッドCoNaLa上でのBLEUスコアが最大2.2%向上することがわかった。
論文 参考訳(メタデータ) (2020-04-20T01:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。