論文の概要: Neuro-symbolic Zero-Shot Code Cloning with Cross-Language Intermediate
Representation
- arxiv url: http://arxiv.org/abs/2304.13350v1
- Date: Wed, 26 Apr 2023 07:41:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 15:08:23.512020
- Title: Neuro-symbolic Zero-Shot Code Cloning with Cross-Language Intermediate
Representation
- Title(参考訳): 言語間中間表現を用いたニューロシンボリックゼロショットコードクローニング
- Authors: Krishnam Hasija, Shrishti Pradhan, Manasi Patwardhan, Raveendra Kumar
Medicherla, Lovekesh Vig, Ravindra Naik
- Abstract要約: 我々は,従来のプログラミング言語のコードに対して意味論的に類似したクローンを学習することなく発見するタスクに対処する,ニューロシンボリックなアプローチを定義した。
CodeNetデータセットで利用可能なC言語ペアのSBT IRによるコードクローンタスクに対して、クロスプログラミング言語検索の最高のパフォーマンスモデルであるUnixCoderを微調整する。
この微調整されたUnixCoderでは、CodeNetから合成されたテストスプリットに基づいて、事前訓練されたUnixCoderモデルに対して12.85 MAP@2のパフォーマンスが改善される。
- 参考スコア(独自算出の注目度): 13.881954273779403
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this paper, we define a neuro-symbolic approach to address the task of
finding semantically similar clones for the codes of the legacy programming
language COBOL, without training data. We define a meta-model that is
instantiated to have an Intermediate Representation (IR) in the form of
Abstract Syntax Trees (ASTs) common across codes in C and COBOL. We linearize
the IRs using Structure Based Traversal (SBT) to create sequential inputs. We
further fine-tune UnixCoder, the best-performing model for zero-shot
cross-programming language code search, for the Code Cloning task with the SBT
IRs of C code-pairs, available in the CodeNet dataset. This allows us to learn
latent representations for the IRs of the C codes, which are transferable to
the IRs of the COBOL codes. With this fine-tuned UnixCoder, we get a
performance improvement of 12.85 MAP@2 over the pre-trained UniXCoder model, in
a zero-shot setting, on the COBOL test split synthesized from the CodeNet
dataset. This demonstrates the efficacy of our meta-model based approach to
facilitate cross-programming language transfer.
- Abstract(参考訳): 本稿では,従来のプログラミング言語COBOLのコードに対する意味論的に類似したクローンを見つけるタスクに,学習データなしで対処するためのニューロシンボリックアプローチを定義する。
我々は、CとCOBOLのコード間で共通する抽象構文木(AST)の形で、中間表現(IR)を持つようにインスタンス化されるメタモデルを定義する。
我々は、SBT(Structure Based Traversal)を用いてIRを線形化し、逐次入力を生成する。
CodeNetデータセットで利用可能なC言語ペアのSBT IRを用いたCode Cloningタスクに対して、ゼロショットのクロスプログラミング言語コード検索のための最高のパフォーマンスモデルであるUnixCoderをさらに微調整する。
これにより、COBOL符号のIRに転送可能なC符号のIRの潜在表現を学習することができる。
この微調整されたUnixCoderでは、CodeNetデータセットから合成されたCOBOLテストスプリットに基づいて、事前訓練されたUnixCoderモデルに対して12.85 MAP@2のパフォーマンスが改善された。
これにより、メタモデルに基づく言語間の移動を容易にする手法の有効性を示す。
関連論文リスト
- Large Language Models for cross-language code clone detection [3.5202378300682162]
言語間のコードクローン検出は、ソフトウェアエンジニアリングコミュニティで注目を集めている。
機械学習の大幅な進歩にインスパイアされた本論文では、言語間コードクローン検出を再考する。
論文 参考訳(メタデータ) (2024-08-08T12:57:14Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - LILO: Learning Interpretable Libraries by Compressing and Documenting Code [71.55208585024198]
LILOは、反復的に合成、圧縮、文書化を行う、ニューロシンボリックなフレームワークである。
LILOは、LLM誘導プログラム合成と、Stitchから自動化された最近のアルゴリズムの進歩を組み合わせたものである。
LILOのシンセサイザーが学習した抽象化を解釈し、デプロイするのを手助けすることで、AutoDocがパフォーマンスを向上させることが分かりました。
論文 参考訳(メタデータ) (2023-10-30T17:55:02Z) - LongCoder: A Long-Range Pre-trained Language Model for Code Completion [56.813974784131624]
LongCoderは自己アテンションにスライディングウィンドウ機構を採用し、グローバルアクセス可能なトークンを2種類導入している。
ブリッジトークンは入力シーケンス全体を通して挿入され、ローカル情報を集約し、グローバルな相互作用を促進する。
メモリトークンは、後で呼び出され、記憶する必要がある重要なステートメントをハイライトするために含まれます。
論文 参考訳(メタデータ) (2023-06-26T17:59:24Z) - Knowledge Transfer for Pseudo-code Generation from Low Resource
Programming Language [13.716669765394293]
我々は、並列コード-擬似コードデータを用いて、高リソースPL(C++)で訓練されたコード-擬似コードニューラルモデルによって得られた知識の伝達に焦点をあてる。
後方翻訳により生成されたC符号の成功率を23.27%向上させる。
論文 参考訳(メタデータ) (2023-03-16T03:38:08Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - UniXcoder: Unified Cross-Modal Pre-training for Code Representation [65.6846553962117]
プログラミング言語のためのクロスモーダル事前学習モデルUniXcoderを提案する。
木の構造情報を全て保持するシーケンス構造でASTを変換する1対1のマッピング手法を提案する。
我々は,UniXcoderを9つのデータセット上で5つのコード関連タスクで評価する。
論文 参考訳(メタデータ) (2022-03-08T04:48:07Z) - Synchromesh: Reliable code generation from pre-trained language models [38.15391794443022]
コード生成のための事前学習モデルの信頼性を大幅に向上するフレームワークであるSynchromeshを提案する。
まず、TST(Target similarity Tuning)を使用して、トレーニングバンクから、セマンティックなサンプル選択の新しい方法を使用して、数ショットのサンプルを検索する。
次に、Synchromeshはサンプルをトレーニング済みの言語モデルに供給し、対象言語の有効なプログラムセットに出力を制約する一般的なフレームワークであるConstrained Semantic Decoding (CSD)を使用してプログラムをサンプリングする。
論文 参考訳(メタデータ) (2022-01-26T22:57:44Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。