論文の概要: Exploring Representation-Level Augmentation for Code Search
- arxiv url: http://arxiv.org/abs/2210.12285v1
- Date: Fri, 21 Oct 2022 22:47:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 21:52:42.671947
- Title: Exploring Representation-Level Augmentation for Code Search
- Title(参考訳): コード検索のための表現レベル拡張の探索
- Authors: Haochen Li, Chunyan Miao, Cyril Leung, Yanxian Huang, Yuan Huang,
Hongyu Zhang, Yanlin Wang
- Abstract要約: 我々は、データ処理やトレーニングを必要としない表現レベルでデータ(コードとクエリの両方)を増強する拡張手法について検討する。
大規模公開データセット上で,最先端のコード検索モデルを用いた表現レベル向上手法を実験的に評価した。
- 参考スコア(独自算出の注目度): 50.94201167562845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code search, which aims at retrieving the most relevant code fragment for a
given natural language query, is a common activity in software development
practice. Recently, contrastive learning is widely used in code search
research, where many data augmentation approaches for source code (e.g.,
semantic-preserving program transformation) are proposed to learn better
representations. However, these augmentations are at the raw-data level, which
requires additional code analysis in the preprocessing stage and additional
training costs in the training stage. In this paper, we explore augmentation
methods that augment data (both code and query) at representation level which
does not require additional data processing and training, and based on this we
propose a general format of representation-level augmentation that unifies
existing methods. Then, we propose three new augmentation methods (linear
extrapolation, binary interpolation, and Gaussian scaling) based on the general
format. Furthermore, we theoretically analyze the advantages of the proposed
augmentation methods over traditional contrastive learning methods on code
search. We experimentally evaluate the proposed representation-level
augmentation methods with state-of-the-art code search models on a large-scale
public dataset consisting of six programming languages. The experimental
results show that our approach can consistently boost the performance of the
studied code search models. Our source code is available at
https://github.com/Alex-HaochenLi/RACS.
- Abstract(参考訳): 自然言語クエリの最も関連性の高いコードフラグメントを取得することを目的としたコード検索は、ソフトウェア開発の実践において一般的な活動である。
近年、対照的な学習は、コード検索研究において広く使われており、ソースコードに対する多くのデータ拡張アプローチ(例えば、意味保存プログラム変換)がより良い表現を学ぶために提案されている。
しかし、これらの拡張は生データレベルであり、前処理段階ではコード解析を追加し、トレーニング段階では追加のトレーニングコストを必要とする。
本稿では,データ処理やトレーニングを必要としない表現レベルでデータ(コードとクエリ)を増強する拡張手法について検討し,既存の手法を統一する表現レベル拡張の汎用形式を提案する。
そこで本研究では,汎用形式に基づく3つの拡張手法(線形補間,バイナリ補間,ガウススケーリング)を提案する。
さらに,コード検索における従来のコントラスト学習手法に比べて,提案手法の利点を理論的に分析する。
6つのプログラミング言語からなる大規模公開データセット上で,最先端のコード検索モデルを用いた表現レベル向上手法を実験的に評価した。
実験の結果,本手法は,検討したコード検索モデルの性能を一貫して向上させることができることがわかった。
ソースコードはhttps://github.com/alex-haochenli/racsで入手できます。
関連論文リスト
- From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models [63.188607839223046]
この調査は、推論中に計算をスケールするメリットに焦点を当てている。
我々はトークンレベルの生成アルゴリズム、メタジェネレーションアルゴリズム、効率的な生成という3つの領域を統一的な数学的定式化の下で探索する。
論文 参考訳(メタデータ) (2024-06-24T17:45:59Z) - Enhancing Source Code Representations for Deep Learning with Static
Analysis [10.222207222039048]
本稿では,静的解析とバグレポートやデザインパターンなどのコンテキストを,ディープラーニングモデルのためのソースコード表現に統合する方法について検討する。
我々はASTNN(Abstract Syntax Tree-based Neural Network)法を用いて,バグレポートやデザインパターンから得られたコンテキスト情報を追加して拡張する。
提案手法はソースコードの表現と処理を改善し,タスク性能を向上させる。
論文 参考訳(メタデータ) (2024-02-14T20:17:04Z) - Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in
Dense Encoders [63.28408887247742]
得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。
我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
論文 参考訳(メタデータ) (2023-11-16T10:42:58Z) - REINFOREST: Reinforcing Semantic Code Similarity for Cross-Lingual Code Search Models [11.78036105494679]
本稿では,Large Language Models (LLMs) の性能を向上させる新しいコード・ツー・コード検索手法を提案する。
本稿では,学習中の動的情報を検索対象のコーパスや,推論時に検索クエリを実行することなく符号化するコード検索手法を提案する。
論文 参考訳(メタデータ) (2023-05-05T20:46:56Z) - Boosting Source Code Learning with Data Augmentation: An Empirical Study [16.49710700412084]
本研究では,もともとテキストやグラフに用いたデータ拡張手法が,ソースコード学習のトレーニング品質向上に有効かどうかを検討する。
この結果から,より正確でロバストなソースコード学習モデルを生成するデータ拡張手法が同定された。
論文 参考訳(メタデータ) (2023-03-13T01:47:05Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Data Augmentation for Opcode Sequence Based Malware Detection [2.335152769484957]
固定変換を用いた基本手法からデータ拡張の異なる手法について検討し、データに適応する手法に移行する。
ネットワーク内のOpcode埋め込み層とそれに対応するOpcode埋め込み行列を用いた新しいデータ拡張手法を提案する。
我々の知る限りでは、オプコードシーケンスに基づくマルウェア分類に適用される様々な拡張手法を体系的に研究する最初の論文である。
論文 参考訳(メタデータ) (2021-06-22T14:36:35Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z) - Reinforcement Learning with Augmented Data [97.42819506719191]
本稿では,ほとんどのRLアルゴリズムを拡張可能なシンプルなプラグイン・アンド・プレイモジュールであるReinforcement Learning with Augmented Data (RAD)を提案する。
本稿では,RLアルゴリズムが複雑な最先端手法より優れていることを示すために,ランダム翻訳,作物,カラージッタ,パッチカットアウト,ランダム畳み込み,振幅スケールなどの拡張法を提案する。
論文 参考訳(メタデータ) (2020-04-30T17:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。