論文の概要: Evaluating few shot and Contrastive learning Methods for Code Clone
Detection
- arxiv url: http://arxiv.org/abs/2204.07501v3
- Date: Thu, 9 Nov 2023 18:30:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 19:12:34.006801
- Title: Evaluating few shot and Contrastive learning Methods for Code Clone
Detection
- Title(参考訳): コードクローン検出のためのショットおよびコントラスト学習手法の評価
- Authors: Mohamad Khajezade, Fatemeh Hendijani Fard and Mohamed S. Shehata
- Abstract要約: コードクローン検出(Code Clone Detection)は、盗作検出、コード検索、コード理解に使用されるソフトウェアエンジニアリングタスクである。
ディープラーニングベースのモデルは、CodeXGLUEベンチマークで$sim$95%のF1スコア(分類器の評価に用いられる指標)を達成した。
注釈付きデータが限られているこれらのモデルの一般化性を評価する以前の研究はない。
- 参考スコア(独自算出の注目度): 5.1623866691702744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context: Code Clone Detection (CCD) is a software engineering task that is
used for plagiarism detection, code search, and code comprehension. Recently,
deep learning-based models have achieved an F1 score (a metric used to assess
classifiers) of $\sim$95\% on the CodeXGLUE benchmark. These models require
many training data, mainly fine-tuned on Java or C++ datasets. However, no
previous study evaluates the generalizability of these models where a limited
amount of annotated data is available.
Objective: The main objective of this research is to assess the ability of
the CCD models as well as few shot learning algorithms for unseen programming
problems and new languages (i.e., the model is not trained on these
problems/languages).
Method: We assess the generalizability of the state of the art models for CCD
in few shot settings (i.e., only a few samples are available for fine-tuning)
by setting three scenarios: i) unseen problems, ii) unseen languages, iii)
combination of new languages and new problems. We choose three datasets of
BigCloneBench, POJ-104, and CodeNet and Java, C++, and Ruby languages. Then, we
employ Model Agnostic Meta-learning (MAML), where the model learns a
meta-learner capable of extracting transferable knowledge from the train set;
so that the model can be fine-tuned using a few samples. Finally, we combine
contrastive learning with MAML to further study whether it can improve the
results of MAML.
- Abstract(参考訳): コンテキスト: コードクローン検出(ccd: code clone detection)は、盗作の検出、コード検索、コード理解に使用されるソフトウェアエンジニアリングタスクである。
近年、ディープラーニングベースのモデルは、codexglueベンチマークで$\sim$95\%のf1スコア(分類器の評価に使用されるメトリクス)を達成している。
これらのモデルは、主にJavaまたはC++データセットに微調整された多くのトレーニングデータを必要とする。
しかし、注釈付きデータの限られた量が利用できるこれらのモデルの一般化可能性を評価する以前の研究はない。
目的: 本研究の目的は, ccdモデルの能力を評価することと, 未熟なプログラミング問題や新しい言語に対するショット学習アルゴリズム(つまり, モデルがこれらの問題/言語に基づいて訓練されていないこと)を評価することである。
方法:3つのシナリオを設定して,CCD用アートモデルの一般化可能性を評価する。
i) 目に見えない問題
ii) 未知の言語
三 新しい言語と新しい問題の組み合わせ
BigCloneBench、POJ-104、CodeNet、Java、C++、Ruby言語の3つのデータセットを選択します。
次にモデル非依存型メタラーニング(maml)を採用し、モデルが列車セットから転送可能な知識を抽出できるメタリーナーを学習し、いくつかのサンプルを用いてモデルを微調整する。
最後に,MAMLと対比学習を組み合わせることで,MAMLの結果を改善することができるかどうかをさらに研究する。
関連論文リスト
- Language Models are Better Bug Detector Through Code-Pair Classification [0.26107298043931204]
本稿では,バグギー版とバグギー版の両方をモデルに付与するコードペア分類タスクを提案し,バグギー版とバグギー版を識別する。
実験によると、LLMはバグのないバージョンのコードからバグを拾うことができ、コードペアの分類タスクはスニペットを与え、バグが存在するかどうかを判断するよりもずっと簡単である。
論文 参考訳(メタデータ) (2023-11-14T07:20:57Z) - Context-Aware Meta-Learning [52.09326317432577]
本研究では,大規模言語モデルのエミュレートを行うメタ学習アルゴリズムを提案する。
我々のアプローチは、11のメタラーニングベンチマークのうち8つで最先端のアルゴリズムであるP>M>Fを上回り、一致します。
論文 参考訳(メタデータ) (2023-10-17T03:35:27Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - On the Steganographic Capacity of Selected Learning Models [1.0640226829362012]
本稿では,学習モデルの聴取能力について考察する。
幅広いモデルに対して、上書き可能な低次ビットの数を決定する。
テスト対象モデルのうち, LR実験では7.04KB, InceptionV3では44.74MBであった。
論文 参考訳(メタデータ) (2023-08-29T10:41:34Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - An Understanding-Oriented Robust Machine Reading Comprehension Model [12.870425062204035]
本稿では,3種類のロバスト性問題に対処する理解指向機械読解モデルを提案する。
具体的には、入力された質問の正確な意味を理解するために、まず自然言語推論モジュールを使用します。
第3に,一般化の問題に対処する多言語学習機構を提案する。
論文 参考訳(メタデータ) (2022-07-01T03:32:02Z) - Meta Learning for Code Summarization [10.403206672504664]
コード要約のための3つのSOTAモデルは、大きなコードベースのほぼ不整合部分集合でうまく機能することを示す。
与えられたコードセグメントに対して最適な候補サマリーを選択する3つのメタモデルを提案する。
論文 参考訳(メタデータ) (2022-01-20T17:23:34Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - RethinkCWS: Is Chinese Word Segmentation a Solved Task? [81.11161697133095]
中国語の単語(CWS)システムの性能は、ディープニューラルネットワークの急速な発展とともに、徐々に高水準に達している。
本稿では、私たちが達成した事柄の株式を取得し、CWSタスクに残されている事柄を再考する。
論文 参考訳(メタデータ) (2020-11-13T11:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。