論文の概要: ZC3: Zero-Shot Cross-Language Code Clone Detection
- arxiv url: http://arxiv.org/abs/2308.13754v2
- Date: Thu, 7 Sep 2023 11:22:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 16:18:31.546988
- Title: ZC3: Zero-Shot Cross-Language Code Clone Detection
- Title(参考訳): zc3: ゼロショットのクロス言語コードクローン検出
- Authors: Jia Li, Chongyang Tao, Zhi Jin, Fang Liu, Jia Li, Ge Li
- Abstract要約: ゼロショットクロスランゲージコードクローン検出のためのZC3という新しい手法を提案する。
ZC3は、異なるプログラミング言語間で同型表現空間を形成するために、対照的なスニペット予測を設計する。
これに基づいて、ZC3はドメイン認識学習とサイクル一貫性学習を利用して、異なる言語間で整合した表現を生成する。
- 参考スコア(独自算出の注目度): 79.53514630357876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developers introduce code clones to improve programming productivity. Many
existing studies have achieved impressive performance in monolingual code clone
detection. However, during software development, more and more developers write
semantically equivalent programs with different languages to support different
platforms and help developers translate projects from one language to another.
Considering that collecting cross-language parallel data, especially for
low-resource languages, is expensive and time-consuming, how designing an
effective cross-language model that does not rely on any parallel data is a
significant problem. In this paper, we propose a novel method named ZC3 for
Zero-shot Cross-language Code Clone detection. ZC3 designs the contrastive
snippet prediction to form an isomorphic representation space among different
programming languages. Based on this, ZC3 exploits domain-aware learning and
cycle consistency learning to further constrain the model to generate
representations that are aligned among different languages meanwhile are
diacritical for different types of clones. To evaluate our approach, we conduct
extensive experiments on four representative cross-language clone detection
datasets. Experimental results show that ZC3 outperforms the state-of-the-art
baselines by 67.12%, 51.39%, 14.85%, and 53.01% on the MAP score, respectively.
We further investigate the representational distribution of different languages
and discuss the effectiveness of our method.
- Abstract(参考訳): 開発者はプログラミングの生産性を向上させるためにコードクローンを導入する。
既存の多くの研究はモノリンガルコードクローン検出において顕著な性能を達成した。
しかし、ソフトウェア開発の間、多くの開発者が異なる言語で意味論的に等価なプログラムを書き、異なるプラットフォームをサポートし、開発者がある言語から別の言語にプロジェクトを翻訳するのを手助けします。
言語間の並列データ収集、特に低リソース言語のための収集は高価で時間がかかり、並列データに依存しない効果的な言語横断モデルの設計が重要な問題である。
本稿では,ゼロショット言語コードクローン検出のためのZC3という新しい手法を提案する。
zc3は、異なるプログラミング言語間で同型表現空間を形成するために、対照的なスニペット予測を設計する。
これに基づいて、ZC3はドメイン認識学習とサイクル一貫性学習を活用して、異なる言語間で整合した表現を生成するためにモデルをさらに制約する。
このアプローチを評価するために,4つの代表的な言語間クローン検出データセットについて広範な実験を行った。
実験の結果、ZC3は最先端のベースラインを67.12%、51.39%、14.85%、そして53.01%でそれぞれ上回った。
異なる言語の表現分布についても検討し,本手法の有効性について考察する。
関連論文リスト
- Development and Benchmarking of Multilingual Code Clone Detector [2.253851493296371]
多言語コードクローン検出器は、ターゲット言語のみの構文情報を提供することで、新しい言語のサポートを追加しやすくする。
ANTLR生成に基づく多言語コードブロック抽出法を提案し、多言語コードクローン検出器(MSCCD)を実装した。
最先端の10の検出器と比較して、MSCCDは平均レベルで動作し、さらに多くの言語をサポートしている。
論文 参考訳(メタデータ) (2024-09-10T03:08:33Z) - Large Language Models for cross-language code clone detection [3.5202378300682162]
言語間のコードクローン検出は、ソフトウェアエンジニアリングコミュニティで注目を集めている。
機械学習の大幅な進歩にインスパイアされた本論文では、言語間コードクローン検出を再考する。
論文 参考訳(メタデータ) (2024-08-08T12:57:14Z) - The Role of Language Imbalance in Cross-lingual Generalisation: Insights from Cloned Language Experiments [57.273662221547056]
本研究では,言語間一般化の非直感的な新規ドライバである言語不均衡について検討する。
学習中に支配的な言語が存在することが、あまり頻度の低い言語の性能を高めることを観察する。
分析を実言語に拡張するにつれ、頻繁な言語は依然として恩恵を受けていますが、言語不均衡が言語間の一般化を引き起こすかどうかは決定的ではありません。
論文 参考訳(メタデータ) (2024-04-11T17:58:05Z) - AdaCCD: Adaptive Semantic Contrasts Discovery Based Cross Lingual
Adaptation for Code Clone Detection [69.79627042058048]
AdaCCDは、その言語でアノテーションを使わずに、新しい言語のクローンコードを検出する新しい言語間適応手法である。
5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。
論文 参考訳(メタデータ) (2023-11-13T12:20:48Z) - Unveiling the potential of large language models in generating semantic
and cross-language clones [8.791710193028905]
OpenAIのGPTモデルは、テキスト生成に使用されるGPTのようなクローン生成の可能性を秘めている。
セマンティッククローンの分野では、GPT-3の精度は62.14%と0.55 BLEUで、数発のプロンプトエンジニアリングによって達成されている。
論文 参考訳(メタデータ) (2023-09-12T17:40:49Z) - CCT-Code: Cross-Consistency Training for Multilingual Clone Detection
and Code Search [4.192584020959536]
我々は、多言語クローン検出問題を定式化し、CodeForcesの送信データセットから生成された新しいベンチマークデータセットであるXCDを提示する。
我々は、異なるプログラミング言語のソースコード上で、言語モデルをトレーニングするために、クロス一貫性トレーニング(CCT)と呼ばれる新しいトレーニング手順を提案する。
結果として得られたCCT-LMモデルは、POJ-104クローン検出ベンチマークで95.67%のMAPとAdvTestコード検索ベンチマークで47.18%のMRRで既存のアプローチより優れている。
論文 参考訳(メタデータ) (2023-05-19T12:09:49Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。