論文の概要: Evaluating and Optimizing the Effectiveness of Neural Machine
Translation in Supporting Code Retrieval Models: A Study on the CAT Benchmark
- arxiv url: http://arxiv.org/abs/2308.04693v1
- Date: Wed, 9 Aug 2023 04:06:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 15:02:07.778409
- Title: Evaluating and Optimizing the Effectiveness of Neural Machine
Translation in Supporting Code Retrieval Models: A Study on the CAT Benchmark
- Title(参考訳): コード検索モデル支援におけるニューラルマシン翻訳の有効性の評価と最適化:catベンチマークの検討
- Authors: Hung Phan and Ali Jannesari
- Abstract要約: 新たにキュレートされたCATベンチマークにおいて,自然言語からコードへの翻訳におけるNMTの性能を解析した。
非終端ノードのサブセットを用いた抽象構文木(AST)の調整表現であるASTTrans表現を提案する。
我々の学習ASTTrans表現のNMTモデルは、これらの最先端のコード検索プロセスの平均相互ランクを最大3.08%向上させることができる。
- 参考スコア(独自算出の注目度): 8.3017581766084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural Machine Translation (NMT) is widely applied in software engineering
tasks. The effectiveness of NMT for code retrieval relies on the ability to
learn from the sequence of tokens in the source language to the sequence of
tokens in the target language. While NMT performs well in pseudocode-to-code
translation, it might have challenges in learning to translate from natural
language query to source code in newly curated real-world code documentation/
implementation datasets. In this work, we analyze the performance of NMT in
natural language-to-code translation in the newly curated CAT benchmark that
includes the optimized versions of three Java datasets TLCodeSum,
CodeSearchNet, Funcom, and a Python dataset PCSD. Our evaluation shows that NMT
has low accuracy, measured by CrystalBLEU and Meteor metrics in this task. To
alleviate the duty of NMT in learning complex representation of source code, we
propose ASTTrans Representation, a tailored representation of an Abstract
Syntax Tree (AST) using a subset of non-terminal nodes. We show that the
classical approach NMT performs significantly better in learning ASTTrans
Representation over code tokens with up to 36% improvement on Meteor score.
Moreover, we leverage ASTTrans Representation to conduct combined code search
processes from the state-of-the-art code search processes using GraphCodeBERT
and UniXcoder. Our NMT models of learning ASTTrans Representation can boost the
Mean Reciprocal Rank of these state-of-the-art code search processes by up to
3.08% and improve 23.08% of queries' results over the CAT benchmark.
- Abstract(参考訳): ニューラルマシン翻訳(nmt)はソフトウェア工学のタスクに広く適用されている。
コード検索におけるnmtの有効性は、ソース言語におけるトークンのシーケンスからターゲット言語におけるトークンのシーケンスへ学習する能力に依存している。
NMTは擬似コードからコードへの翻訳でうまく機能するが、自然言語クエリから、新しくキュレートされた実世界のコードドキュメント/実装データセットのソースコードへの変換を学ぶ上で、課題があるかもしれない。
本研究では,3つのJavaデータセットTLCodeSum,CodeSearchNet,Funcom,PythonデータセットPCSDを最適化したCATベンチマークを用いて,自然言語からコードへの翻訳におけるNMTの性能を分析した。
評価の結果,NMTの精度は低く,CrystalBLEUとMeteorが測定した。
ソースコードの複雑な表現を学習する際のNMTの責務を軽減するため,非終端ノードのサブセットを用いた抽象構文木(AST)の調整表現であるASTTrans表現を提案する。
従来のアプローチであるnmtは,meteorスコアが最大36%向上したコードトークン上でのasttrans表現の学習において,極めて優れたパフォーマンスを示す。
さらに, ASTTrans表現を利用して, GraphCodeBERT と UniXcoder を用いた最先端のコード検索プロセスからコード検索を行う。
我々の学習ASTTrans表現のNMTモデルは、これらの最先端コード検索プロセスの平均相互ランクを最大3.08%向上させ、CATベンチマークによるクエリの結果の23.08%を改善することができる。
関連論文リスト
- VerMCTS: Synthesizing Multi-Step Programs using a Verifier, a Large Language Model, and Tree Search [5.389248707675898]
大型言語モデル(LLM)は有用なコードを生成することができるが、しばしばそれらが生成するコードは信頼できない。
本稿では,Dafny と Coq で検証プログラムを生成することで,この問題を解決するための VerMCTS を提案する。
論文 参考訳(メタデータ) (2024-02-13T00:55:14Z) - Abstract Syntax Tree for Programming Language Understanding and
Representation: How Far Are We? [23.52632194060246]
プログラミング言語の理解と表現(コード表現学習)は、ソフトウェア工学において常にホットで挑戦的なタスクである。
抽象構文木(AST)は、ソースコードの構文情報を表現し、コード表現学習で広く使われている。
コードトークンシーケンス(略してToken)ベースのコード表現とASTベースのコード表現でトレーニングされた3種類のコード関連タスクのパフォーマンスを比較した。
論文 参考訳(メタデータ) (2023-12-01T08:37:27Z) - Neural Machine Translation for Code Generation [0.7607163273993514]
コード生成のためのNMTでは、入力で表現された制約を満たすソースコードを生成する。
本稿では,コード生成文献のNMTを調査し,これまで検討されてきた様々な手法のカタログ化を行う。
本稿では,既存手法の限界と今後の研究方向性について論じる。
論文 参考訳(メタデータ) (2023-05-22T21:43:12Z) - Learning Homographic Disambiguation Representation for Neural Machine
Translation [20.242134720005467]
ニューラル・マシン・トランスレーション(NMT)において、同じ綴りだが異なる意味を持つ単語であるホモグラフは依然として困難である
我々は、潜伏空間におけるNMT問題に取り組むための新しいアプローチを提案する。
まず、自然言語推論(NLI)タスクで普遍的な文表現を学ぶために、エンコーダ(別名ホモグラフィックエンコーダ)を訓練する。
さらに、ホモグラフベースの合成WordNetを用いてエンコーダを微調整し、文から単語集合表現を学習する。
論文 参考訳(メタデータ) (2023-04-12T13:42:59Z) - Quality-Aware Decoding for Neural Machine Translation [64.24934199944875]
ニューラルネットワーク翻訳(NMT)のための品質認識復号法を提案する。
参照フリーおよび参照ベースMT評価における最近のブレークスルーを,様々な推論手法を用いて活用する。
品質認識復号化は、最先端の自動測定値と人的評価値の両方で、MAPベースの復号化を一貫して上回ります。
論文 参考訳(メタデータ) (2022-05-02T15:26:28Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Exploiting Neural Query Translation into Cross Lingual Information
Retrieval [49.167049709403166]
既存のCLIRシステムは、高度ニューラルネットワーク翻訳(NMT)ではなく、統計ベースの機械翻訳(SMT)を主に活用している
本稿では,ユーザクリックスルーデータに基づいてクエリ変換ペアを抽出する新しいデータ拡張手法を提案する。
実験結果から,提案手法は強いベースラインよりも高い検索精度が得られることがわかった。
論文 参考訳(メタデータ) (2020-10-26T15:28:19Z) - Encodings of Source Syntax: Similarities in NMT Representations Across
Target Languages [3.464656011246703]
NMTエンコーダは,NMTの対象言語に関係なく,類似したソース構文を学習する。
NMTエンコーダは、いくつかの構成ラベル予測タスクで直接訓練されたRNNより優れている。
論文 参考訳(メタデータ) (2020-05-17T06:41:32Z) - Neural Machine Translation: Challenges, Progress and Future [62.75523637241876]
機械翻訳(英: Machine translation, MT)は、コンピュータを利用して人間の言語を自動翻訳する技術である。
ニューラルマシン翻訳(NMT)は、ディープニューラルネットワークを用いたソース言語とターゲット言語間の直接マッピングをモデル化する。
この記事では、NMTフレームワークをレビューし、NMTの課題について論じ、最近のエキサイティングな進歩を紹介します。
論文 参考訳(メタデータ) (2020-04-13T07:53:57Z) - Explicit Reordering for Neural Machine Translation [50.70683739103066]
Transformer-based neural machine translation (NMT)では、位置符号化機構は、自己アテンションネットワークが順序依存でソース表現を学習するのに役立つ。
本研究では,トランスフォーマーベースのNMTに対して,このリオーダ情報を明示的にモデル化する新しいリオーダ手法を提案する。
WMT14, WAT ASPEC日本語訳, WMT17中国語訳の実証結果から, 提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-04-08T05:28:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。