論文の概要: Code Search based on Context-aware Code Translation
- arxiv url: http://arxiv.org/abs/2202.08029v1
- Date: Wed, 16 Feb 2022 12:45:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 21:37:10.819068
- Title: Code Search based on Context-aware Code Translation
- Title(参考訳): 文脈認識型コード翻訳に基づくコード検索
- Authors: Weisong Sun and Chunrong Fang and Yuchen Chen and Guanhong Tao and
Tingxu Han and Quanjun Zhang
- Abstract要約: 既存のテクニックは、ディープラーニングモデルを利用して、コードスニペットとクエリの埋め込み表現を構築する。
本稿では,コードスニペットを自然言語記述に変換する,文脈認識型コード翻訳手法を提案する。
我々は,1000クエリのCodeSearchNetコーパス上で,TranCSと呼ばれる手法の有効性を評価する。
- 参考スコア(独自算出の注目度): 9.346066889885684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code search is a widely used technique by developers during software
development. It provides semantically similar implementations from a large code
corpus to developers based on their queries. Existing techniques leverage deep
learning models to construct embedding representations for code snippets and
queries, respectively. Features such as abstract syntactic trees, control flow
graphs, etc., are commonly employed for representing the semantics of code
snippets. However, the same structure of these features does not necessarily
denote the same semantics of code snippets, and vice versa. In addition, these
techniques utilize multiple different word mapping functions that map query
words/code tokens to embedding representations. This causes diverged embeddings
of the same word/token in queries and code snippets. We propose a novel
context-aware code translation technique that translates code snippets into
natural language descriptions (called translations). The code translation is
conducted on machine instructions, where the context information is collected
by simulating the execution of instructions. We further design a shared word
mapping function using one single vocabulary for generating embeddings for both
translations and queries. We evaluate the effectiveness of our technique,
called TranCS, on the CodeSearchNet corpus with 1,000 queries. Experimental
results show that TranCS significantly outperforms state-of-the-art techniques
by 49.31% to 66.50% in terms of MRR (mean reciprocal rank).
- Abstract(参考訳): コード検索はソフトウェア開発において、開発者が広く利用するテクニックである。
大規模なコードコーパスからクエリに基づいて開発者に意味的に類似した実装を提供する。
既存のテクニックは、ディープラーニングモデルを利用して、それぞれコードスニペットとクエリの埋め込み表現を構築する。
抽象構文木、制御フローグラフなどの機能は、コードスニペットのセマンティクスを表現するために一般的に使用される。
しかし、これらの機能の同じ構造は必ずしもコードスニペットの同じ意味を表現しているわけではない。
さらに、これらの技術はクエリワード/コードトークンを埋め込み表現にマッピングする複数の異なるワードマッピング機能を利用する。
これにより、クエリやコードスニペットに同じワード/トークンの分散埋め込みが発生する。
本稿では,コードスニペットを自然言語記述に翻訳する文脈認識型コード翻訳手法を提案する。
コード翻訳は機械命令に基づいて行われ、命令の実行をシミュレートしてコンテキスト情報を収集する。
さらに、1つの語彙を用いて単語の共有マッピング関数を設計し、翻訳とクエリの両方に埋め込みを生成する。
我々は,1000クエリのCodeSearchNetコーパス上で,TranCSと呼ばれる手法の有効性を評価する。
実験の結果、TranCSはMRR(平均的相互ランク)において最先端技術よりも49.31%から66.50%優れていた。
関連論文リスト
- When simplicity meets effectiveness: Detecting code comments coherence with word embeddings and LSTM [6.417777780911223]
コードコメントは、プログラマに実用的な情報を提供するため、ソフトウェア開発において重要な役割を果たす。
開発者はコードを更新した後、コメントをそのまま残す傾向があり、2つのアーティファクトの間に相違が生じます。
コードスニペットが与えられたら、そのコメントが一貫性があり、コードの背後にある意図をよく反映しているかどうかを特定することが重要です。
論文 参考訳(メタデータ) (2024-05-25T15:21:27Z) - Soft-Labeled Contrastive Pre-training for Function-level Code
Representation [127.71430696347174]
textbfSoft-labeled contrastive pre-training framework with two positive sample construction method。
大規模コードコーパスにおけるコード間の関連性を考慮すると、ソフトラベル付きコントラスト付き事前学習は、きめ細かいソフトラベルを得ることができる。
SCodeRは、7つのデータセットで4つのコード関連タスクに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T05:17:37Z) - NS3: Neuro-Symbolic Semantic Code Search [33.583344165521645]
私たちはこのアイデアを実装するためにNeural Module Networkアーキテクチャを使用します。
我々は、NS3 (Neuro-Symbolic Semantic Search) と、最先端のセマンティックコード検索方法を含む多くのベースラインを比較した。
提案手法により,より正確なコード検索が可能であることが実証され,コンポジションクエリ処理におけるモジュール設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-05-21T20:55:57Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z) - Multimodal Representation for Neural Code Search [18.371048875103497]
本稿では,AST の簡易な形式でツリーシリアライズ手法を導入し,コードデータのマルチモーダル表現を構築する。
この結果から,木をシリアライズした表現とマルチモーダル学習モデルの両方がニューラルコード検索の性能を向上させることがわかった。
論文 参考訳(メタデータ) (2021-07-02T12:08:19Z) - Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文 参考訳(メタデータ) (2020-10-24T14:16:50Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z) - Self-Supervised Contrastive Learning for Code Retrieval and
Summarization via Semantic-Preserving Transformations [28.61567319928316]
Corderは、ソースコードモデルのための自己教師付きコントラスト学習フレームワークである。
重要なイノベーションは、ソースコードモデルをトレーニングし、類似した、異種のコードスニペットを認識するように要求することです。
Corderで事前訓練されたコードモデルは、コード・ツー・コード検索、テキスト・ツー・コード検索、およびコード・ツー・テキスト要約タスクにおいて、他のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2020-09-06T13:31:16Z) - Neural Code Search Revisited: Enhancing Code Snippet Retrieval through
Natural Language Intent [1.1168121941015012]
コードスニペットの意図をよりよく把握するために,記述を活用することで,コード検索システムを改善する方法について検討する。
翻訳学習と自然言語処理の最近の進歩に基づき,自然言語記述を付加したコードに対するドメイン固有検索モデルを構築した。
論文 参考訳(メタデータ) (2020-08-27T15:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。