Fugu-MT 論文翻訳(概要): CoSQA: 20,000+ Web Queries for Code Search and Question Answering

論文の概要: CoSQA: 20,000+ Web Queries for Code Search and Question Answering

arxiv url: http://arxiv.org/abs/2105.13239v1
Date: Thu, 27 May 2021 15:37:21 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-28 16:17:18.515394
Title: CoSQA: 20,000+ Web Queries for Code Search and Question Answering
Title（参考訳）: CoSQA:コード検索と質問回答のための2万以上のWebクエリ
Authors: Junjie Huang, Duyu Tang, Linjun Shou, Ming Gong, Ke Xu, Daxin Jiang, Ming Zhou, Nan Duan
Abstract要約: CoSQAデータセットには、自然言語クエリとコードのペア用の20,604ラベルが含まれている。本稿では,クエリコードマッチングを強化するために,CoCLRと呼ばれる対照的な学習手法を提案する。我々は,CodeXGLUEを同じCodeBERTモデルで評価し,CoSQAのトレーニングにより,コード質問応答の精度が5.1%向上したことを示す。
参考スコア（独自算出の注目度）: 63.92224685262063
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Finding codes given natural language query isb eneficial to the productivity of software developers. Future progress towards better semantic matching between query and code requires richer supervised training resources. To remedy this, we introduce the CoSQA dataset.It includes 20,604 labels for pairs of natural language queries and codes, each annotated by at least 3 human annotators. We further introduce a contrastive learning method dubbed CoCLR to enhance query-code matching, which works as a data augmenter to bring more artificially generated training instances. We show that evaluated on CodeXGLUE with the same CodeBERT model, training on CoSQA improves the accuracy of code question answering by 5.1%, and incorporating CoCLR brings a further improvement of 10.5%.
Abstract（参考訳）: 自然言語クエリが与えられたコードを見つけることは、ソフトウェア開発者の生産性に有効である。クエリとコード間のセマンティックマッチングを改善するためには、より豊富な教師付きトレーニングリソースが必要になる。これを改善するために、我々はCoSQAデータセットを導入し、20,604個の自然言語クエリとコードのためのラベルを含み、それぞれに少なくとも3人のアノテータがアノテートする。さらに,coclrと呼ばれるコントラスト学習手法を導入して,クエリコードマッチングを強化し,より人工的に生成されたトレーニングインスタンスを実現するためのデータインテンサとして機能する。 CodeXGLUEを同じCodeBERTモデルで評価し、CoSQAのトレーニングにより、コード質問応答の精度が5.1%向上し、CoCLRの導入によりさらに10.5%向上したことを示す。

関連論文リスト

IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
Zero-Shot Cross-Domain Code Search without Fine-Tuning [12.905068305900356]
クロスドメインコード検索のためのゼロショット、微調整不要なアプローチを提案する。 CodeBridgeは、PLMベースの類似性スコアリングとサンプリングベースの融合を通じて、クエリコード、クエリコンメンテーション、コードマッチングを組み合わせる。我々の手法は、最先端のPLMベースのコード検索手法であるCoCoSoDaとUniXcoderをそれぞれ平均21.4%、MRRは24.9%上回る。
論文参考訳（メタデータ） (2025-04-10T13:36:37Z)
KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding [49.56049319037421]
KodCodeは、高品質で検証可能なトレーニングデータを取得するという永続的な課題に対処する、合成データセットである。自己検証手順によって体系的に検証される質問解決テスト三つ子を含む。このパイプラインは大規模で堅牢で多様なコーディングデータセットを生成する。
論文参考訳（メタデータ） (2025-03-04T19:17:36Z)
CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文参考訳（メタデータ） (2024-11-19T16:54:45Z)
CoSQA+: Enhancing Code Search Dataset with Matching Code [27.10957318333608]
CoSQA+は、複数の適切なコードで高品質なクエリをペアリングする。 CoSQA+はCoSQAよりも優れた品質を示している。我々は1対Nのコード検索性能を評価するための新しい指標を提案する。
論文参考訳（メタデータ） (2024-06-17T14:34:14Z)
Prompt-based Code Completion via Multi-Retrieval Augmented Generation [15.233727939816388]
ProCCは、プロンプトエンジニアリングとコンテキスト多武装バンディットアルゴリズムを活用したコード補完フレームワークである。 ProCCは、収集したオープンソースベンチマークスイートにおいて、最先端のコード補完テクニックを8.6%上回ります。 ProCCはまた, プラグ・アンド・プレイ方式で微調整技術を増強し, 実験した微調整モデルよりも5.6%改善した。
論文参考訳（メタデータ） (2024-05-13T07:56:15Z)
ProCQA: A Large-scale Community-based Programming Question Answering Dataset for Code Search [8.700556381819267]
本稿では,StackOverflowコミュニティから抽出した大規模プログラミング質問応答データセットProCQAを紹介する。そこで本研究では,既存の言語モデルのテキストとコード表現のアライメントを改善するために,モダリティに依存しないコントラスト付き事前学習手法を提案する。
論文参考訳（メタデータ） (2024-03-25T12:34:33Z)
Modular Visual Question Answering via Code Generation [134.59005611826777]
モジュラーコード生成として視覚的質問応答を定式化するフレームワークを提案する。提案手法では、事前学習言語モデル(LM)、画像キャプチャペアで事前学習した視覚モデル、コンテキスト内学習に使用する50のVQA例など、追加のトレーニングは不要である。コード生成を行わない少数のベースラインと比較して,COVRデータセットの精度を少なくとも3%,GQAデータセットの精度を約2%向上させる。
論文参考訳（メタデータ） (2023-06-08T17:45:14Z)
Improving Code Search with Hard Negative Sampling Based on Fine-tuning [15.341959871682981]
本稿では,クエリとコードの結合を共同で符号化するコード検索のためのクロスエンコーダアーキテクチャを提案する。また、両エンコーダとクロスエンコーダをカスケードしたRetriever-Ranker(RR)フレームワークを導入し、評価とオンラインサービスの有効性を高める。
論文参考訳（メタデータ） (2023-05-08T07:04:28Z)
Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-04-07T08:49:27Z)
ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-03-15T08:25:08Z)
COSEA: Convolutional Code Search with Layer-wise Attention [90.35777733464354]
我々は、畳み込みニューラルネットワークを階層的注意で活用し、コード固有の構造論理をキャプチャする新しいディープラーニングアーキテクチャ、COSEAを提案する。 COSEAは、コード検索タスクの最先端メソッドよりも大幅に改善できる。
論文参考訳（メタデータ） (2020-10-19T13:53:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。