論文の概要: Is a Single Model Enough? MuCoS: A Multi-Model Ensemble Learning for
Semantic Code Search
- arxiv url: http://arxiv.org/abs/2107.04773v2
- Date: Tue, 13 Jul 2021 02:42:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-14 11:41:11.769624
- Title: Is a Single Model Enough? MuCoS: A Multi-Model Ensemble Learning for
Semantic Code Search
- Title(参考訳): 単一モデルだけで十分か?
MuCoS: セマンティックコード検索のためのマルチモデルアンサンブル学習
- Authors: Lun Du, Xiaozhou Shi, Yanlin Wang, Ensheng Shi, Shi Han and Dongmei
Zhang
- Abstract要約: セマンティックコード検索のためのマルチモデルアンサンブル学習アーキテクチャである MuCoS を提案する。
我々は、コード情報の異なる視点を含む異なるデータセットで個々の学習者を訓練する。
次に、学習者をアンサンブルして、コードスニペットの包括的な機能をキャプチャします。
- 参考スコア(独自算出の注目度): 22.9351865820122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, deep learning methods have become mainstream in code search since
they do better at capturing semantic correlations between code snippets and
search queries and have promising performance. However, code snippets have
diverse information from different dimensions, such as business logic, specific
algorithm, and hardware communication, so it is hard for a single code
representation module to cover all the perspectives. On the other hand, as a
specific query may focus on one or several perspectives, it is difficult for a
single query representation module to represent different user intents. In this
paper, we propose MuCoS, a multi-model ensemble learning architecture for
semantic code search. It combines several individual learners, each of which
emphasizes a specific perspective of code snippets. We train the individual
learners on different datasets which contain different perspectives of code
information, and we use a data augmentation strategy to get these different
datasets. Then we ensemble the learners to capture comprehensive features of
code snippets.
- Abstract(参考訳): 近年,コードスニペットと検索クエリ間のセマンティックな相関がより良くなり,有望な性能を持つため,深層学習がコード検索の主流となっている。
しかし、コードスニペットはビジネスロジック、特定のアルゴリズム、ハードウェア通信など、さまざまな次元の様々な情報を持っているため、単一のコード表現モジュールがすべての視点をカバーすることは困難である。
一方、特定のクエリは1つまたは複数の視点にフォーカスする可能性があるため、単一のクエリ表現モジュールが異なるユーザ意図を表現することは困難である。
本稿では,意味コード検索のためのマルチモデルアンサンブル学習アーキテクチャであるMuCoSを提案する。
複数の個別の学習者が組み合わさり、それぞれがコードスニペットの特定の視点を強調する。
私たちは、コード情報の異なる視点を含む異なるデータセットで個々の学習者を訓練し、これらの異なるデータセットを取得するためにデータ拡張戦略を使用します。
次に、学習者をアンサンブルして、コードスニペットの包括的な特徴を捉えます。
関連論文リスト
- Survey of Code Search Based on Deep Learning [11.94599964179766]
この調査は、コード検索、すなわち、あるクエリにマッチするコードを取得することに焦点を当てている。
複雑な意味情報を抽出できるディープラーニングは、この分野で大きな成功を収めている。
本稿では,最先端のディープラーニングに基づくコード検索を記述した新しい分類法を提案する。
論文 参考訳(メタデータ) (2023-05-10T08:07:04Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Probing Pretrained Models of Source Code [14.904366372190943]
一般的な事前学習モデルは、多くのアプリケーションにおいてタスク固有のモデルよりも優れていることが示されている。
事前訓練されたコードのモデルには、コード構文構造と正当性、識別子の概念、データフローと正当性、自然言語の命名に関する情報が含まれている。
論文 参考訳(メタデータ) (2022-02-16T10:26:14Z) - Learning Deep Semantic Model for Code Search using CodeSearchNet Corpus [17.6095840480926]
マルチモーダル・ソースのユーティリティを利用する新しいディープ・セマンティック・モデルを提案する。
提案したモデルを適用して,意味的コード検索に関するCodeSearchNetの課題に対処する。
我々のモデルはCodeSearchNetコーパスでトレーニングされ、ホールドアウトデータに基づいて評価され、最終モデルは0.384 NDCGに達し、このベンチマークで優勝した。
論文 参考訳(メタデータ) (2022-01-27T04:15:59Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z) - Contrastive Learning for Source Code with Structural and Functional
Properties [66.10710134948478]
本稿では,ソースコードの特徴に基づいて事前学習に焦点を当てた,新たな自己教師型モデルBOOSTを提案する。
私たちは、機能的に等価なコードを生成する自動化された構造誘導型コード変換アルゴリズムを採用しています。
私たちは、対照的な学習目標を通じて、機能的に等価なコードをより近く、異なるコードに近づける方法で、モデルをトレーニングします。
論文 参考訳(メタデータ) (2021-10-08T02:56:43Z) - Multimodal Representation for Neural Code Search [18.371048875103497]
本稿では,AST の簡易な形式でツリーシリアライズ手法を導入し,コードデータのマルチモーダル表現を構築する。
この結果から,木をシリアライズした表現とマルチモーダル学習モデルの両方がニューラルコード検索の性能を向上させることがわかった。
論文 参考訳(メタデータ) (2021-07-02T12:08:19Z) - Multimodal Clustering Networks for Self-supervised Learning from
Unlabeled Videos [69.61522804742427]
本稿では,共通のマルチモーダル埋め込み空間を学習する自己監督型トレーニングフレームワークを提案する。
インスタンスレベルのコントラスト学習の概念をマルチモーダルクラスタリングステップで拡張し,モダリティ間の意味的類似性を捉える。
結果として得られる埋め込みスペースは、見えないデータセットや異なるドメインからでも、すべてのモダリティにわたるサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2021-04-26T15:55:01Z) - Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文 参考訳(メタデータ) (2020-10-24T14:16:50Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。