論文の概要: AdaCCD: Adaptive Semantic Contrasts Discovery based Cross Lingual
Adaptation for Code Clone Detection
- arxiv url: http://arxiv.org/abs/2311.07277v1
- Date: Mon, 13 Nov 2023 12:20:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 14:39:29.931294
- Title: AdaCCD: Adaptive Semantic Contrasts Discovery based Cross Lingual
Adaptation for Code Clone Detection
- Title(参考訳): AdaCCD:コードクローン検出のためのクロスリンガル適応に基づく適応セマンティックコントラスト探索
- Authors: Yangkai Du, Tengfei Ma, Lingfei Wu, Xuhong Zhang, Shouling Ji
- Abstract要約: AdaCCDは、新しい言語におけるクローンコードを検出するための新しい言語間適応手法である。
5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。
- 参考スコア(独自算出の注目度): 69.79627042058048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code Clone Detection, which aims to retrieve functionally similar programs
from large code bases, has been attracting increasing attention. Modern
software often involves a diverse range of programming languages. However,
current code clone detection methods are generally limited to only a few
popular programming languages due to insufficient annotated data as well as
their own model design constraints. To address these issues, we present AdaCCD,
a novel cross-lingual adaptation method that can detect cloned codes in a new
language without any annotations in that language. AdaCCD leverages
language-agnostic code representations from pre-trained programming language
models and propose an Adaptively Refined Contrastive Learning framework to
transfer knowledge from resource-rich languages to resource-poor languages. We
evaluate the cross-lingual adaptation results of AdaCCD by constructing a
multilingual code clone detection benchmark consisting of 5 programming
languages. AdaCCD achieves significant improvements over other baselines, and
it is even comparable to supervised fine-tuning.
- Abstract(参考訳): 大規模なコードベースから機能的に類似したプログラムを検索するコードクローン検出が注目されている。
現代のソフトウェアは、しばしば多様なプログラミング言語を含む。
しかし、現在のコードクローン検出法は、注釈付きデータやモデル設計の制約が不十分なため、一般的なプログラム言語に限られている。
これらの問題に対処するために、新しい言語におけるクローンコードを検出するための新しい言語間適応法であるAdaCCDを提案する。
AdaCCDは、事前訓練されたプログラミング言語モデルから言語に依存しないコード表現を活用し、リソース豊富な言語からリソース不足言語に知識を移すための適応精製コントラスト学習フレームワークを提案する。
5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。
AdaCCDは他のベースラインよりも大幅に改善され、教師付き微調整に匹敵する。
関連論文リスト
- Development and Benchmarking of Multilingual Code Clone Detector [2.253851493296371]
多言語コードクローン検出器は、ターゲット言語のみの構文情報を提供することで、新しい言語のサポートを追加しやすくする。
ANTLR生成に基づく多言語コードブロック抽出法を提案し、多言語コードクローン検出器(MSCCD)を実装した。
最先端の10の検出器と比較して、MSCCDは平均レベルで動作し、さらに多くの言語をサポートしている。
論文 参考訳(メタデータ) (2024-09-10T03:08:33Z) - Large Language Models for cross-language code clone detection [3.5202378300682162]
言語間のコードクローン検出は、ソフトウェアエンジニアリングコミュニティで注目を集めている。
機械学習の大幅な進歩にインスパイアされた本論文では、言語間コードクローン検出を再考する。
論文 参考訳(メタデータ) (2024-08-08T12:57:14Z) - DA-Net: A Disentangled and Adaptive Network for Multi-Source
Cross-Lingual Transfer Learning [11.78085199896157]
マルチソースの言語間変換学習は、複数のラベル付けされたソース言語から、言語シフトの下でラベル付けされていないターゲット言語へのタスク知識の転送を扱う。
本稿では,これらの課題に対処する分散適応ネットワーク(DA-Net)を提案する。
論文 参考訳(メタデータ) (2024-03-07T02:30:46Z) - Language Agnostic Code Embeddings [61.84835551549612]
私たちは、さまざまなプログラミング言語にまたがるコード埋め込みの言語間機能に重点を置いています。
1つは特定の言語のニュアンスと構文に深く結びついており、もう1つは詳細を知らない。
我々は、この言語固有のコンポーネントを分離して排除すると、下流のコード検索タスクが大幅に改善されることを示した。
論文 参考訳(メタデータ) (2023-10-25T17:34:52Z) - ZC3: Zero-Shot Cross-Language Code Clone Detection [79.53514630357876]
ゼロショットクロスランゲージコードクローン検出のためのZC3という新しい手法を提案する。
ZC3は、異なるプログラミング言語間で同型表現空間を形成するために、対照的なスニペット予測を設計する。
これに基づいて、ZC3はドメイン認識学習とサイクル一貫性学習を利用して、異なる言語間で整合した表現を生成する。
論文 参考訳(メタデータ) (2023-08-26T03:48:10Z) - CCT-Code: Cross-Consistency Training for Multilingual Clone Detection
and Code Search [4.192584020959536]
我々は、多言語クローン検出問題を定式化し、CodeForcesの送信データセットから生成された新しいベンチマークデータセットであるXCDを提示する。
我々は、異なるプログラミング言語のソースコード上で、言語モデルをトレーニングするために、クロス一貫性トレーニング(CCT)と呼ばれる新しいトレーニング手順を提案する。
結果として得られたCCT-LMモデルは、POJ-104クローン検出ベンチマークで95.67%のMAPとAdvTestコード検索ベンチマークで47.18%のMRRで既存のアプローチより優れている。
論文 参考訳(メタデータ) (2023-05-19T12:09:49Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。