論文の概要: Cross-Domain Deep Code Search with Meta Learning
- arxiv url: http://arxiv.org/abs/2201.00150v6
- Date: Tue, 12 Mar 2024 05:31:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 02:43:53.744464
- Title: Cross-Domain Deep Code Search with Meta Learning
- Title(参考訳): メタ学習によるドメイン間深層コード検索
- Authors: Yitian Chai, Hongyu Zhang, Beijun Shen, Xiaodong Gu
- Abstract要約: ドメイン固有のコード検索のための新しいアプローチであるCroCSを提案する。
CroCSは、プログラム表現モデルを一般的なプログラミング言語の大規模なコーパス上で事前訓練するトランスファーラーニングフレームワークを採用している。
- 参考スコア(独自算出の注目度): 14.618183588410194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, pre-trained programming language models such as CodeBERT have
demonstrated substantial gains in code search. Despite showing great
performance, they rely on the availability of large amounts of parallel data to
fine-tune the semantic mappings between queries and code. This restricts their
practicality in domain-specific languages with relatively scarce and expensive
data. In this paper, we propose CroCS, a novel approach for domain-specific
code search. CroCS employs a transfer learning framework where an initial
program representation model is pre-trained on a large corpus of common
programming languages (such as Java and Python) and is further adapted to
domain-specific languages such as SQL and Solidity. Unlike cross-language
CodeBERT, which is directly fine-tuned in the target language, CroCS adapts a
few-shot meta-learning algorithm called MAML to learn the good initialization
of model parameters, which can be best reused in a domain-specific language. We
evaluate the proposed approach on two domain-specific languages, namely, SQL
and Solidity, with model transferred from two widely used languages (Python and
Java). Experimental results show that CDCS significantly outperforms
conventional pre-trained code models that are directly fine-tuned in
domain-specific languages, and it is particularly effective for scarce data.
- Abstract(参考訳): 近年、CodeBERTのような事前訓練されたプログラミング言語モデルでは、コード検索が大幅に向上している。
パフォーマンスは優れていますが、クエリとコード間のセマンティックマッピングを微調整するために、大量の並列データの可用性に依存しています。
これにより、ドメイン特化言語における実用性は比較的乏しく高価なデータで制限される。
本稿ではドメイン固有コード検索の新しいアプローチであるCroCSを提案する。
CroCSは、初期プログラム表現モデルが(JavaやPythonのような)共通プログラミング言語の大規模なコーパスで事前訓練され、SQLやSolidityのようなドメイン固有言語にさらに適応するトランスファーラーニングフレームワークを採用している。
ターゲット言語で直接微調整されたクロス言語CodeBERTとは異なり、CroCSはMAMLと呼ばれる数発のメタ学習アルゴリズムを適用し、モデルパラメータの優れた初期化を学ぶ。
提案した2つのドメイン固有言語,すなわちSQLとSolidityに対するアプローチを,広く使用されている2つの言語(PythonとJava)からモデルを移行して評価した。
実験の結果、CDCSはドメイン固有言語で直接微調整された従来の事前学習コードモデルよりも大幅に優れており、特に少ないデータに対して有効であることがわかった。
関連論文リスト
- IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators [49.903001442804594]
本研究では、コンパイラ中間表現(IR)を活用して、Code-LMの多言語機能を改善する可能性について検討する。
まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。
次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。
IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文 参考訳(メタデータ) (2024-03-06T17:52:08Z) - GenCodeSearchNet: A Benchmark Test Suite for Evaluating Generalization
in Programming Language Understanding [5.9535699822923]
我々は,言語モデルの言語理解能力を評価するために,GenCodeSearchNet (GeCS) という新しいベンチマークデータセットを提案する。
完全なデータセットの一部として、我々が導入した新しい手作業でキュレートされたサブセットであるStatCodeSearchは、人気があるが、これまでのところあまり表現されていないプログラミング言語である。
評価と比較のために、細調整されたBERTスタイルモデルとGPTスタイルの大規模言語モデルを用いて、いくつかのベースライン結果を収集した。
論文 参考訳(メタデータ) (2023-11-16T09:35:00Z) - Language Models are Universal Embedders [48.12992614723464]
事前学習されたトランスフォーマーデコーダは、限定的な英語データに基づいて微調整された場合、普遍的に埋め込み可能であることを示す。
我々のモデルは、最小限のトレーニングデータにより、異なる埋め込みタスクにおける競争性能を達成する。
これらの結果は、強力な統合インバータを構築するための有望な道の証となる。
論文 参考訳(メタデータ) (2023-10-12T11:25:46Z) - Domain Adaptive Code Completion via Language Models and Decoupled Domain
Databases [15.964849180459675]
$k$NM-LMは、ドメイン知識を微調整なしで言語モデルに統合する検索強化言語モデルである。
私たちのアプローチは、異なる言語モデルとドメインに自動的に適応できます。
論文 参考訳(メタデータ) (2023-08-18T05:25:55Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文 参考訳(メタデータ) (2020-10-24T14:16:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。