論文の概要: CoSQA: 20,000+ Web Queries for Code Search and Question Answering
- arxiv url: http://arxiv.org/abs/2105.13239v1
- Date: Thu, 27 May 2021 15:37:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 16:17:18.515394
- Title: CoSQA: 20,000+ Web Queries for Code Search and Question Answering
- Title(参考訳): CoSQA:コード検索と質問回答のための2万以上のWebクエリ
- Authors: Junjie Huang, Duyu Tang, Linjun Shou, Ming Gong, Ke Xu, Daxin Jiang,
Ming Zhou, Nan Duan
- Abstract要約: CoSQAデータセットには、自然言語クエリとコードのペア用の20,604ラベルが含まれている。
本稿では,クエリコードマッチングを強化するために,CoCLRと呼ばれる対照的な学習手法を提案する。
我々は,CodeXGLUEを同じCodeBERTモデルで評価し,CoSQAのトレーニングにより,コード質問応答の精度が5.1%向上したことを示す。
- 参考スコア(独自算出の注目度): 63.92224685262063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Finding codes given natural language query isb eneficial to the productivity
of software developers. Future progress towards better semantic matching
between query and code requires richer supervised training resources. To remedy
this, we introduce the CoSQA dataset.It includes 20,604 labels for pairs of
natural language queries and codes, each annotated by at least 3 human
annotators. We further introduce a contrastive learning method dubbed CoCLR to
enhance query-code matching, which works as a data augmenter to bring more
artificially generated training instances. We show that evaluated on CodeXGLUE
with the same CodeBERT model, training on CoSQA improves the accuracy of code
question answering by 5.1%, and incorporating CoCLR brings a further
improvement of 10.5%.
- Abstract(参考訳): 自然言語クエリが与えられたコードを見つけることは、ソフトウェア開発者の生産性に有効である。
クエリとコード間のセマンティックマッチングを改善するためには、より豊富な教師付きトレーニングリソースが必要になる。
これを改善するために、我々はCoSQAデータセットを導入し、20,604個の自然言語クエリとコードのためのラベルを含み、それぞれに少なくとも3人のアノテータがアノテートする。
さらに,coclrと呼ばれるコントラスト学習手法を導入して,クエリコードマッチングを強化し,より人工的に生成されたトレーニングインスタンスを実現するためのデータインテンサとして機能する。
CodeXGLUEを同じCodeBERTモデルで評価し、CoSQAのトレーニングにより、コード質問応答の精度が5.1%向上し、CoCLRの導入によりさらに10.5%向上したことを示す。
関連論文リスト
- Modular Visual Question Answering via Code Generation [134.59005611826777]
モジュラーコード生成として視覚的質問応答を定式化するフレームワークを提案する。
提案手法では、事前学習言語モデル(LM)、画像キャプチャペアで事前学習した視覚モデル、コンテキスト内学習に使用する50のVQA例など、追加のトレーニングは不要である。
コード生成を行わない少数のベースラインと比較して,COVRデータセットの精度を少なくとも3%,GQAデータセットの精度を約2%向上させる。
論文 参考訳(メタデータ) (2023-06-08T17:45:14Z) - Retriever and Ranker Framework with Probabilistic Hard Negative Sampling
for Code Search [11.39443308694887]
本稿では,クエリとコードのセマンティックマッチングを共同で符号化するコード検索のためのクロスエンコーダアーキテクチャを提案する。
また、両エンコーダとクロスエンコーダをカスケードしたRetriever-Rankerフレームワークを導入し、評価とオンラインサービスの有効性を高める。
論文 参考訳(メタデータ) (2023-05-08T07:04:28Z) - Split, Encode and Aggregate for Long Code Search [70.38415400383693]
提案するSEA (Split, Encode and Aggregate for Long Code Search) は,長いコードをコードブロックに分割し,それらのブロックを埋め込みにエンコードし,それらを集約して包括的なロングコード表現を得る。
SEAでは、Transformerベースの事前トレーニングモデルを直接使用して、内部構造や再トレーニングを変更することなく、長いコードをモデル化することができます。
論文 参考訳(メタデータ) (2022-08-24T02:27:30Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - On the Importance of Building High-quality Training Datasets for Neural
Code Search [15.557818317497397]
本稿では,ルールベース構文フィルタとモデルベースセマンティックフィルタという,次の2つのフィルタからなるデータクリーニングフレームワークを提案する。
2つの広く使われているコード検索モデルと3つの手動アノテーション付きコード検索ベンチマークにおけるフレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-14T12:02:41Z) - Adversarial Training for Code Retrieval with Question-Description
Relevance Regularization [34.29822107097347]
入力問題から難しいコードスニペットを生成するために,簡単な逆学習手法を適用した。
本稿では,逆学習の規則化に質問記述の関連性を活用することを提案する。
我々の対角学習法は,最先端モデルの性能を向上させることができる。
論文 参考訳(メタデータ) (2020-10-19T19:32:03Z) - COSEA: Convolutional Code Search with Layer-wise Attention [90.35777733464354]
我々は、畳み込みニューラルネットワークを階層的注意で活用し、コード固有の構造論理をキャプチャする新しいディープラーニングアーキテクチャ、COSEAを提案する。
COSEAは、コード検索タスクの最先端メソッドよりも大幅に改善できる。
論文 参考訳(メタデータ) (2020-10-19T13:53:38Z) - Neural Code Search Revisited: Enhancing Code Snippet Retrieval through
Natural Language Intent [1.1168121941015012]
コードスニペットの意図をよりよく把握するために,記述を活用することで,コード検索システムを改善する方法について検討する。
翻訳学習と自然言語処理の最近の進歩に基づき,自然言語記述を付加したコードに対するドメイン固有検索モデルを構築した。
論文 参考訳(メタデータ) (2020-08-27T15:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。