論文の概要: Knowledge Transfer for Pseudo-code Generation from Low Resource
Programming Language
- arxiv url: http://arxiv.org/abs/2303.09062v1
- Date: Thu, 16 Mar 2023 03:38:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 16:54:31.678295
- Title: Knowledge Transfer for Pseudo-code Generation from Low Resource
Programming Language
- Title(参考訳): 低リソース言語からの擬似コード生成のための知識伝達
- Authors: Ankita Sontakke, Kanika Kalra, Manasi Patwardhan, Lovekesh Vig,
Raveendra Kumar Medicherla, Ravindra Naik, Shrishti Pradhan
- Abstract要約: 我々は、並列コード-擬似コードデータを用いて、高リソースPL(C++)で訓練されたコード-擬似コードニューラルモデルによって得られた知識の伝達に焦点をあてる。
後方翻訳により生成されたC符号の成功率を23.27%向上させる。
- 参考スコア(独自算出の注目度): 13.716669765394293
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Generation of pseudo-code descriptions of legacy source code for software
maintenance is a manually intensive task. Recent encoder-decoder language
models have shown promise for automating pseudo-code generation for high
resource programming languages such as C++, but are heavily reliant on the
availability of a large code-pseudocode corpus. Soliciting such pseudocode
annotations for codes written in legacy programming languages (PL) is a time
consuming and costly affair requiring a thorough understanding of the source
PL. In this paper, we focus on transferring the knowledge acquired by the
code-to-pseudocode neural model trained on a high resource PL (C++) using
parallel code-pseudocode data. We aim to transfer this knowledge to a legacy PL
(C) with no PL-pseudocode parallel data for training. To achieve this, we
utilize an Iterative Back Translation (IBT) approach with a novel test-cases
based filtration strategy, to adapt the trained C++-to-pseudocode model to
C-to-pseudocode model. We observe an improvement of 23.27% in the success rate
of the generated C codes through back translation, over the successive IBT
iteration, illustrating the efficacy of our approach.
- Abstract(参考訳): ソフトウェアメンテナンスのためのレガシーソースコードの擬似コード記述の生成は、手作業による集中的な作業である。
最近のエンコーダ・デコーダ言語モデルは、C++のような高リソースプログラミング言語で擬似コード生成を自動化することを約束している。
レガシープログラミング言語(PL)で書かれたコードに対して、そのような擬似コードアノテーションを要求することは、ソースPLを十分に理解する必要のある時間とコストのかかる問題である。
本稿では,並列コード-pseudocodeデータを用いて,高資源pl(c++)上で訓練されたコード-pseudocodeニューラルモデルによって得られた知識の伝達に焦点をあてる。
我々は,この知識をPL-pseudocode並列データを持たないレガシPL(C)に伝達することを目指している。
そこで本研究では,新しいテストケースベースのフィルタリング手法を用いて,C++-to-pseudocodeモデルのC-to-pseudocodeモデルに適用する。
提案手法は, 逆翻訳, IBT反復によるC符号の成功率を23.27%向上させ, 提案手法の有効性を明らかにした。
関連論文リスト
- Execution-based Code Generation using Deep Reinforcement Learning [8.085533911328577]
PPOCoderは、事前訓練されたPLモデルとプロキシポリシー最適化を組み合わせた、コード生成のための新しいフレームワークである。
私たちのコードはhttps://github.com/reddy-lab-code-research/PPOCoder.comで確認できます。
論文 参考訳(メタデータ) (2023-01-31T18:02:26Z) - StructCoder: Structure-Aware Transformer for Code Generation [11.418091479176082]
生成されたコードの品質を向上させる構造対応トランスフォーマーデコーダを提案する。
提案したStructCoderモデルは、コード翻訳およびテキスト・トゥ・コード生成タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-06-10T17:26:31Z) - Summarize and Generate to Back-translate: Unsupervised Translation of
Programming Languages [86.08359401867577]
バックトランスレーションは、並列データがほとんど、あるいは全く利用できない場合のニューラルマシン翻訳の有効性で広く知られている。
コード要約と生成による逆翻訳を提案する。
提案手法は最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2022-05-23T08:20:41Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - Using Document Similarity Methods to create Parallel Datasets for Code
Translation [60.36392618065203]
あるプログラミング言語から別のプログラミング言語へのソースコードの翻訳は、重要で時間を要する作業です。
本稿では、文書類似性手法を用いて、ノイズの多い並列データセットを作成することを提案する。
これらのモデルは、妥当なレベルのノイズに対して、地上の真実に基づいて訓練されたモデルと相容れない性能を示す。
論文 参考訳(メタデータ) (2021-10-11T17:07:58Z) - CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for
Code Understanding and Generation [36.47905744758698]
我々は、開発者が指定した識別子から伝達されるコードセマンティクスをよりよく活用する、事前訓練されたエンコーダ-デコーダ変換モデルであるCodeT5を提案する。
我々のモデルは、コード理解と生成タスクの両方をシームレスにサポートし、マルチタスク学習を可能にする統一的なフレームワークを採用している。
論文 参考訳(メタデータ) (2021-09-02T12:21:06Z) - Project-Level Encoding for Neural Source Code Summarization of
Subroutines [6.939768185086755]
コード要約のモデルを改善するプロジェクトレベルのエンコーダを提案する。
我々はこの表現を用いて、最先端のニューラルネットワーク要約技術のエンコーダを強化する。
論文 参考訳(メタデータ) (2021-03-22T06:01:07Z) - InferCode: Self-Supervised Learning of Code Representations by
Predicting Subtrees [17.461451218469062]
本稿では,自己言語学習機構をソースコードモデルに適用することにより,制限を克服するinfercodeを提案する。
ASTのサブツリーは、人間のラベル付けや高価なグラフ構築のオーバーヘッドなしにコード表現をトレーニングするためのラベルとして、InferCodeで扱われる。
Code2Vec、Code2Seq、ASTNNなど、同じ下流タスクに適用される以前のコード学習技術と比較して、事前に訓練されたInferCodeモデルを使用して、より高いパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2020-12-13T10:33:41Z) - COSEA: Convolutional Code Search with Layer-wise Attention [90.35777733464354]
我々は、畳み込みニューラルネットワークを階層的注意で活用し、コード固有の構造論理をキャプチャする新しいディープラーニングアーキテクチャ、COSEAを提案する。
COSEAは、コード検索タスクの最先端メソッドよりも大幅に改善できる。
論文 参考訳(メタデータ) (2020-10-19T13:53:38Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z) - Incorporating External Knowledge through Pre-training for Natural
Language to Code Generation [97.97049697457425]
オープンドメインコード生成は、自然言語(NL)の意図から汎用プログラミング言語でコードを生成することを目的としている。
オンラインプログラミングQAフォーラムStackOverflowとプログラミング言語APIドキュメントからNL-codeペアを自動的にマイニングする。
評価の結果,2つのソースとデータ拡張と検索ベースデータ再サンプリングを組み合わせることで,コード生成テストベッドCoNaLa上でのBLEUスコアが最大2.2%向上することがわかった。
論文 参考訳(メタデータ) (2020-04-20T01:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。