論文の概要: CoSQA: 20,000+ Web Queries for Code Search and Question Answering
- arxiv url: http://arxiv.org/abs/2105.13239v1
- Date: Thu, 27 May 2021 15:37:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 16:17:18.515394
- Title: CoSQA: 20,000+ Web Queries for Code Search and Question Answering
- Title(参考訳): CoSQA:コード検索と質問回答のための2万以上のWebクエリ
- Authors: Junjie Huang, Duyu Tang, Linjun Shou, Ming Gong, Ke Xu, Daxin Jiang,
Ming Zhou, Nan Duan
- Abstract要約: CoSQAデータセットには、自然言語クエリとコードのペア用の20,604ラベルが含まれている。
本稿では,クエリコードマッチングを強化するために,CoCLRと呼ばれる対照的な学習手法を提案する。
我々は,CodeXGLUEを同じCodeBERTモデルで評価し,CoSQAのトレーニングにより,コード質問応答の精度が5.1%向上したことを示す。
- 参考スコア(独自算出の注目度): 63.92224685262063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Finding codes given natural language query isb eneficial to the productivity
of software developers. Future progress towards better semantic matching
between query and code requires richer supervised training resources. To remedy
this, we introduce the CoSQA dataset.It includes 20,604 labels for pairs of
natural language queries and codes, each annotated by at least 3 human
annotators. We further introduce a contrastive learning method dubbed CoCLR to
enhance query-code matching, which works as a data augmenter to bring more
artificially generated training instances. We show that evaluated on CodeXGLUE
with the same CodeBERT model, training on CoSQA improves the accuracy of code
question answering by 5.1%, and incorporating CoCLR brings a further
improvement of 10.5%.
- Abstract(参考訳): 自然言語クエリが与えられたコードを見つけることは、ソフトウェア開発者の生産性に有効である。
クエリとコード間のセマンティックマッチングを改善するためには、より豊富な教師付きトレーニングリソースが必要になる。
これを改善するために、我々はCoSQAデータセットを導入し、20,604個の自然言語クエリとコードのためのラベルを含み、それぞれに少なくとも3人のアノテータがアノテートする。
さらに,coclrと呼ばれるコントラスト学習手法を導入して,クエリコードマッチングを強化し,より人工的に生成されたトレーニングインスタンスを実現するためのデータインテンサとして機能する。
CodeXGLUEを同じCodeBERTモデルで評価し、CoSQAのトレーニングにより、コード質問応答の精度が5.1%向上し、CoCLRの導入によりさらに10.5%向上したことを示す。
関連論文リスト
- CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。
我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。
私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文 参考訳(メタデータ) (2024-11-19T16:54:45Z) - CoSQA+: Enhancing Code Search Dataset with Matching Code [27.10957318333608]
CoSQA+は、複数の適切なコードで高品質なクエリをペアリングする。
CoSQA+はCoSQAよりも優れた品質を示している。
我々は1対Nのコード検索性能を評価するための新しい指標を提案する。
論文 参考訳(メタデータ) (2024-06-17T14:34:14Z) - Prompt-based Code Completion via Multi-Retrieval Augmented Generation [15.233727939816388]
ProCCは、プロンプトエンジニアリングとコンテキスト多武装バンディットアルゴリズムを活用したコード補完フレームワークである。
ProCCは、収集したオープンソースベンチマークスイートにおいて、最先端のコード補完テクニックを8.6%上回ります。
ProCCはまた, プラグ・アンド・プレイ方式で微調整技術を増強し, 実験した微調整モデルよりも5.6%改善した。
論文 参考訳(メタデータ) (2024-05-13T07:56:15Z) - ProCQA: A Large-scale Community-based Programming Question Answering Dataset for Code Search [8.700556381819267]
本稿では,StackOverflowコミュニティから抽出した大規模プログラミング質問応答データセットProCQAを紹介する。
そこで本研究では,既存の言語モデルのテキストとコード表現のアライメントを改善するために,モダリティに依存しないコントラスト付き事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-25T12:34:33Z) - Modular Visual Question Answering via Code Generation [134.59005611826777]
モジュラーコード生成として視覚的質問応答を定式化するフレームワークを提案する。
提案手法では、事前学習言語モデル(LM)、画像キャプチャペアで事前学習した視覚モデル、コンテキスト内学習に使用する50のVQA例など、追加のトレーニングは不要である。
コード生成を行わない少数のベースラインと比較して,COVRデータセットの精度を少なくとも3%,GQAデータセットの精度を約2%向上させる。
論文 参考訳(メタデータ) (2023-06-08T17:45:14Z) - Improving Code Search with Hard Negative Sampling Based on Fine-tuning [15.341959871682981]
本稿では,クエリとコードの結合を共同で符号化するコード検索のためのクロスエンコーダアーキテクチャを提案する。
また、両エンコーダとクロスエンコーダをカスケードしたRetriever-Ranker(RR)フレームワークを導入し、評価とオンラインサービスの有効性を高める。
論文 参考訳(メタデータ) (2023-05-08T07:04:28Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - COSEA: Convolutional Code Search with Layer-wise Attention [90.35777733464354]
我々は、畳み込みニューラルネットワークを階層的注意で活用し、コード固有の構造論理をキャプチャする新しいディープラーニングアーキテクチャ、COSEAを提案する。
COSEAは、コード検索タスクの最先端メソッドよりも大幅に改善できる。
論文 参考訳(メタデータ) (2020-10-19T13:53:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。