論文の概要: On the Importance of Building High-quality Training Datasets for Neural
Code Search
- arxiv url: http://arxiv.org/abs/2202.06649v1
- Date: Mon, 14 Feb 2022 12:02:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 00:29:05.938725
- Title: On the Importance of Building High-quality Training Datasets for Neural
Code Search
- Title(参考訳): ニューラルコード探索のための高品質なトレーニングデータセットの構築の重要性について
- Authors: Zhensu Sun, Li Li, Yan Liu, Xiaoning Du, Li Li
- Abstract要約: 本稿では,ルールベース構文フィルタとモデルベースセマンティックフィルタという,次の2つのフィルタからなるデータクリーニングフレームワークを提案する。
2つの広く使われているコード検索モデルと3つの手動アノテーション付きコード検索ベンチマークにおけるフレームワークの有効性を評価する。
- 参考スコア(独自算出の注目度): 15.557818317497397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of neural code search is significantly influenced by the
quality of the training data from which the neural models are derived. A large
corpus of high-quality query and code pairs is demanded to establish a precise
mapping from the natural language to the programming language. Due to the
limited availability, most widely-used code search datasets are established
with compromise, such as using code comments as a replacement of queries. Our
empirical study on a famous code search dataset reveals that over one-third of
its queries contain noises that make them deviate from natural user queries.
Models trained through noisy data are faced with severe performance degradation
when applied in real-world scenarios. To improve the dataset quality and make
the queries of its samples semantically identical to real user queries is
critical for the practical usability of neural code search. In this paper, we
propose a data cleaning framework consisting of two subsequent filters: a
rule-based syntactic filter and a model-based semantic filter. This is the
first framework that applies semantic query cleaning to code search datasets.
Experimentally, we evaluated the effectiveness of our framework on two
widely-used code search models and three manually-annotated code retrieval
benchmarks. Training the popular DeepCS model with the filtered dataset from
our framework improves its performance by 19.2% MRR and 21.3% Answer@1, on
average with the three validation benchmarks.
- Abstract(参考訳): ニューラルコード探索の性能は、ニューラルモデルが導出されるトレーニングデータの品質に大きく影響される。
高品質なクエリとコードペアの大きなコーパスは、自然言語からプログラミング言語への正確なマッピングを確立するために必要です。
可用性が限られているため、最も広く使用されているコード検索データセットは、クエリの代替としてコードコメントを使用するなど、妥協によって確立されている。
有名なコード検索データセットに関する実証研究によると、クエリの3分の1以上が自然のユーザクエリから逸脱するノイズを含んでいることがわかった。
ノイズの多いデータによってトレーニングされたモデルは、現実のシナリオに適用した場合、厳しいパフォーマンス劣化に直面します。
データセットの品質を向上し、そのサンプルのクエリを実際のユーザクエリと意味的に同一にするためには、ニューラルネットワーク検索の実用的ユーザビリティが不可欠である。
本稿では,ルールベース構文フィルタとモデルベースセマンティックフィルタという,その後の2つのフィルタからなるデータクリーニングフレームワークを提案する。
これは、コード検索データセットにセマンティッククエリクリーニングを適用する最初のフレームワークである。
実験では, 広く使われている2つのコード検索モデルと, 手動アノテーションによる3つのコード検索ベンチマークについて, フレームワークの有効性を評価した。
フレームワークからフィルタデータセットを使用して人気のDeepCSモデルをトレーニングすると、3つの検証ベンチマークで平均19.2%のMRRと21.3%のAnswer@1のパフォーマンスが向上する。
関連論文リスト
- An Integrated Data Processing Framework for Pretraining Foundation
Models [61.66552412677197]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Retriever and Ranker Framework with Probabilistic Hard Negative Sampling
for Code Search [11.39443308694887]
本稿では,クエリとコードのセマンティックマッチングを共同で符号化するコード検索のためのクロスエンコーダアーキテクチャを提案する。
また、両エンコーダとクロスエンコーダをカスケードしたRetriever-Rankerフレームワークを導入し、評価とオンラインサービスの有効性を高める。
論文 参考訳(メタデータ) (2023-05-08T07:04:28Z) - Zero-Shot Listwise Document Reranking with a Large Language Model [58.64141622176841]
本稿では,タスク固有の学習データを用いることなく,言語モデル(LRL)を用いたリスワイズ・リランカを提案する。
3つのTRECウェブサーチデータセットの実験により、LRLは第1段検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段再ランカとしても機能することが示された。
論文 参考訳(メタデータ) (2023-05-03T14:45:34Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Learning Deep Semantic Model for Code Search using CodeSearchNet Corpus [17.6095840480926]
マルチモーダル・ソースのユーティリティを利用する新しいディープ・セマンティック・モデルを提案する。
提案したモデルを適用して,意味的コード検索に関するCodeSearchNetの課題に対処する。
我々のモデルはCodeSearchNetコーパスでトレーニングされ、ホールドアウトデータに基づいて評価され、最終モデルは0.384 NDCGに達し、このベンチマークで優勝した。
論文 参考訳(メタデータ) (2022-01-27T04:15:59Z) - CoSQA: 20,000+ Web Queries for Code Search and Question Answering [63.92224685262063]
CoSQAデータセットには、自然言語クエリとコードのペア用の20,604ラベルが含まれている。
本稿では,クエリコードマッチングを強化するために,CoCLRと呼ばれる対照的な学習手法を提案する。
我々は,CodeXGLUEを同じCodeBERTモデルで評価し,CoSQAのトレーニングにより,コード質問応答の精度が5.1%向上したことを示す。
論文 参考訳(メタデータ) (2021-05-27T15:37:21Z) - Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文 参考訳(メタデータ) (2020-10-24T14:16:50Z) - Efficient Neural Query Auto Completion [17.58784759652327]
クエリオートコンプリートシステムでは,3つの大きな課題が報告されている。
従来のQACシステムは、検索ログのクエリ候補頻度などの手作り機能に依存している。
本稿では,これらの課題を克服するために,効果的なコンテキストモデリングを用いた効率的なニューラルネットワークQACシステムを提案する。
論文 参考訳(メタデータ) (2020-08-06T21:28:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。