論文の概要: CSSAM:Code Search via Attention Matching of Code Semantics and
Structures
- arxiv url: http://arxiv.org/abs/2208.03922v1
- Date: Mon, 8 Aug 2022 05:45:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 14:06:54.252712
- Title: CSSAM:Code Search via Attention Matching of Code Semantics and
Structures
- Title(参考訳): CSSAM:コードセマンティクスと構造のアテンションマッチングによるコード検索
- Authors: Yi Hu, Bo Cai, Yaoxiang Yu
- Abstract要約: 本稿では,CSSAM (Code Semantics and Structures Attention Matching) というコード検索モデルを提案する。
意味的および構造的マッチング機構を導入することにより、CSSAMは多次元コードの特徴を効果的に抽出し、融合する。
残りのインタラクションを活用することで、マッチングモジュールはより多くのコードセマンティクスと記述的機能を保持するように設計されている。
- 参考スコア(独自算出の注目度): 8.547332796736107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the continuous efforts in improving both the effectiveness and
efficiency of code search, two issues remained unsolved. First, programming
languages have inherent strong structural linkages, and feature mining of code
as text form would omit the structural information contained inside it. Second,
there is a potential semantic relationship between code and query, it is
challenging to align code and text across sequences so that vectors are
spatially consistent during similarity matching. To tackle both issues, in this
paper, a code search model named CSSAM (Code Semantics and Structures Attention
Matching) is proposed. By introducing semantic and structural matching
mechanisms, CSSAM effectively extracts and fuses multidimensional code
features. Specifically, the cross and residual layer was developed to
facilitate high-latitude spatial alignment of code and query at the token
level. By leveraging the residual interaction, a matching module is designed to
preserve more code semantics and descriptive features, that enhances the
adhesion between the code and its corresponding query text. Besides, to improve
the model's comprehension of the code's inherent structure, a code
representation structure named CSRG (Code Semantic Representation Graph) is
proposed for jointly representing abstract syntax tree nodes and the data flow
of the codes. According to the experimental results on two publicly available
datasets containing 540k and 330k code segments, CSSAM significantly
outperforms the baselines in terms of achieving the highest SR@1/5/10, MRR, and
NDCG@50 on both datasets respectively. Moreover, the ablation study is
conducted to quantitatively measure the impact of each key component of CSSAM
on the efficiency and effectiveness of code search, which offers the insights
into the improvement of advanced code search solutions.
- Abstract(参考訳): コード検索の有効性と効率の改善に継続的な努力にもかかわらず、2つの問題は未解決のままだった。
まず、プログラミング言語には固有の構造的リンクがあり、テキスト形式としてのコードのマイニングは、その内部に含まれる構造情報を省略する。
第二に、コードとクエリには潜在的な意味的関係があり、類似性マッチング中にベクトルが空間的に一貫するように、シーケンス間でコードとテキストを整列させることは困難である。
そこで本研究では,cssam(code semantics and structures attention matching)というコード探索モデルを提案する。
意味的および構造的マッチング機構を導入することで、cssamは、効果的に多次元のコード特徴を抽出および融合する。
具体的には、トークンレベルでのコードとクエリの高緯度空間アライメントを容易にするために、クロス層と残留層を開発した。
残りのインタラクションを活用することで、マッチングモジュールはより多くのコードセマンティクスと記述的機能を保持するように設計され、コードとそれに対応するクエリテキスト間の密着性を高める。
さらに、コード固有の構造に対するモデルの理解を改善するために、抽象構文木ノードとコードのデータフローを共同で表現するために、CSRG(Code Semantic Representation Graph)というコード表現構造を提案する。
540kと330kのコードセグメントを含む2つの公開データセットの実験結果によると、cssamは、それぞれのデータセットで最高sr@1/5/10、mr、ndcg@50を達成するという点で、ベースラインを大きく上回っている。
さらに,CSSAMの各キーコンポーネントがコード検索の効率と有効性に与える影響を定量的に測定し,高度なコード検索ソリューションの改善に関する知見を提供する。
関連論文リスト
- When simplicity meets effectiveness: Detecting code comments coherence with word embeddings and LSTM [6.417777780911223]
コードコメントは、プログラマに実用的な情報を提供するため、ソフトウェア開発において重要な役割を果たす。
開発者はコードを更新した後、コメントをそのまま残す傾向があり、2つのアーティファクトの間に相違が生じます。
コードスニペットが与えられたら、そのコメントが一貫性があり、コードの背後にある意図をよく反映しているかどうかを特定することが重要です。
論文 参考訳(メタデータ) (2024-05-25T15:21:27Z) - ConTextual Mask Auto-Encoder for Dense Passage Retrieval [49.49460769701308]
CoT-MAEは,高密度経路抽出のための簡易かつ効果的な生成前訓練法である。
文のセマンティクスを高密度ベクトルに圧縮する学習は、自己教師付きおよび文脈教師付きマスキングによる自動エンコーディングによって行われる。
我々は,大規模経路探索ベンチマークの実験を行い,強力なベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2022-08-16T11:17:22Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z) - Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文 参考訳(メタデータ) (2020-10-24T14:16:50Z) - COSEA: Convolutional Code Search with Layer-wise Attention [90.35777733464354]
我々は、畳み込みニューラルネットワークを階層的注意で活用し、コード固有の構造論理をキャプチャする新しいディープラーニングアーキテクチャ、COSEAを提案する。
COSEAは、コード検索タスクの最先端メソッドよりも大幅に改善できる。
論文 参考訳(メタデータ) (2020-10-19T13:53:38Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。