論文の概要: TGMM: Combining Parse Tree with GPU for Scalable Multilingual and Multi-Granularity Code Clone Detection
- arxiv url: http://arxiv.org/abs/2403.18202v1
- Date: Wed, 27 Mar 2024 02:24:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 18:36:01.800581
- Title: TGMM: Combining Parse Tree with GPU for Scalable Multilingual and Multi-Granularity Code Clone Detection
- Title(参考訳): TGMM:スケーラブルな多言語および多言語コードクローン検出のためのParseツリーとGPUの組み合わせ
- Authors: Yuhang Ye, Yuekun Wang, Yinxing Xue, Yueming Wu, Yang Liu,
- Abstract要約: TGMMは、多言語および多言語コードクローン検出のためのツリーおよびGPUベースのツールである。
ユーザが提供する文法ファイルに基づいてパースツリーを生成することで、TGMMは特定の粒度でコードブロックを抽出し、Type-3クローンを効率的に検出することができる。
TGMMは最初に実行時間と精度でランク付けし、リコールは他のものと同等である。
- 参考スコア(独自算出の注目度): 11.291926232441654
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The rapid evolution of programming languages and software systems has necessitated the implementation of multilingual and scalable clone detection tools. However, it is difficult to achieve the above requirements at the same time. Most existing tools only focus on one challenge. In this work, we propose TGMM, a tree and GPU-based tool for multilingual and multi-granularity code clone detection. By generating parse trees based on user-provided grammar files, TGMM can extract code blocks at a specified granularity and detect Type-3 clones efficiently. In order to show the performance of TGMM, we compare it with seven state-of-the-art tools in terms of recall, precision, and execution time. TGMM ranks first in execution time and precision, while its recall is comparable to the others. Moreover, we analyzed the language extensibility of TGMM across 30 mainstream programming languages. Out of these, a total of 25 languages were supported, while the remaining five currently lack the necessary grammar files. Finally, we analyzed the clone characteristics of nine popular languages at five common granularities, hoping to inspire future researchers. The source code of TGMM is available at: https://github.com/TGMM24/TGMM.git.
- Abstract(参考訳): プログラミング言語とソフトウェアシステムの急速な進化は、多言語でスケーラブルなクローン検出ツールの実装を必要としている。
しかし、上記の要件を同時に達成することは困難である。
既存のツールのほとんどは、ひとつの課題にのみ焦点をあてています。
本研究では,多言語および多言語コードクローン検出のための木とGPUベースのツールであるTGMMを提案する。
ユーザが提供する文法ファイルに基づいてパースツリーを生成することで、TGMMは特定の粒度でコードブロックを抽出し、Type-3クローンを効率的に検出することができる。
TGMMの性能を示すために、リコール、精度、実行時間の観点から7つの最先端ツールと比較する。
TGMMは最初に実行時間と精度でランク付けし、リコールは他のものと同等である。
さらに、30の主流プログラミング言語を対象に、TGMMの言語拡張性について分析した。
そのうち25言語がサポートされ、残りの5言語は必要な文法ファイルが不足している。
最後に,9つの一般的な言語のクローン特性を5つの共通粒度で解析し,将来の研究者に刺激を与えることを期待した。
TGMMのソースコードは、https://github.com/TGMM24/TGMM.gitで公開されている。
関連論文リスト
- Development and Benchmarking of Multilingual Code Clone Detector [2.253851493296371]
多言語コードクローン検出器は、ターゲット言語のみの構文情報を提供することで、新しい言語のサポートを追加しやすくする。
ANTLR生成に基づく多言語コードブロック抽出法を提案し、多言語コードクローン検出器(MSCCD)を実装した。
最先端の10の検出器と比較して、MSCCDは平均レベルで動作し、さらに多くの言語をサポートしている。
論文 参考訳(メタデータ) (2024-09-10T03:08:33Z) - Multilingual Contrastive Decoding via Language-Agnostic Layers Skipping [60.458273797431836]
対照的なレイヤ(DoLa)によるデコーディングは、大規模言語モデルの生成品質を改善するために設計されている。
このアプローチは英語以外のタスクではうまくいきません。
モデルの前方通過における言語遷移に関する従来の解釈可能性の研究から着想を得て,改良されたコントラスト復号アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-15T15:14:01Z) - Exploring Multi-Lingual Bias of Large Code Models in Code Generation [55.336629780101475]
コード生成は、自然言語(NL)仕様に基づいて、コードを合成し、機能要件を満たすことを目的としている。
有効性にもかかわらず、我々は大規模コードモデル(LCM)の生成性能において顕著な多言語バイアスを観察する。
LCMは、英語で指示を与えると解を生成する能力を示すが、中国語などの他のNLで意味論的に等価な命令に直面すると、失敗する可能性がある。
論文 参考訳(メタデータ) (2024-04-30T08:51:49Z) - MPIrigen: MPI Code Generation through Domain-Specific Language Models [3.5352856644774806]
本研究ではまず,MPIに基づく並列プログラム生成における最先端言語モデルの性能について検討する。
HPCorpusMPI上でMonoCoderを微調整することでMPIベースのプログラム生成のダウンストリームタスクを導入する。
この調整されたソリューションの成功は、並列計算コード生成のための最適化言語モデルにおいて、ドメイン固有の微調整の重要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-02-14T12:24:21Z) - AdaCCD: Adaptive Semantic Contrasts Discovery Based Cross Lingual
Adaptation for Code Clone Detection [69.79627042058048]
AdaCCDは、その言語でアノテーションを使わずに、新しい言語のクローンコードを検出する新しい言語間適応手法である。
5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。
論文 参考訳(メタデータ) (2023-11-13T12:20:48Z) - Unveiling the potential of large language models in generating semantic
and cross-language clones [8.791710193028905]
OpenAIのGPTモデルは、テキスト生成に使用されるGPTのようなクローン生成の可能性を秘めている。
セマンティッククローンの分野では、GPT-3の精度は62.14%と0.55 BLEUで、数発のプロンプトエンジニアリングによって達成されている。
論文 参考訳(メタデータ) (2023-09-12T17:40:49Z) - ZC3: Zero-Shot Cross-Language Code Clone Detection [79.53514630357876]
ゼロショットクロスランゲージコードクローン検出のためのZC3という新しい手法を提案する。
ZC3は、異なるプログラミング言語間で同型表現空間を形成するために、対照的なスニペット予測を設計する。
これに基づいて、ZC3はドメイン認識学習とサイクル一貫性学習を利用して、異なる言語間で整合した表現を生成する。
論文 参考訳(メタデータ) (2023-08-26T03:48:10Z) - COMEX: A Tool for Generating Customized Source Code Representations [7.151800146054561]
COMEXは、研究者と開発者が複数のコードビューを作成し、組み合わせることを可能にするフレームワークである。
プロシージャ内スニペットとプロシージャ間スニペットの両方を使用して、メソッドレベルのスニペットとプログラムレベルのスニペットの両方を分析することができる。
これは40以上の言語をサポートする、広く使われているインクリメンタル分析ツールであるtree-sitter上に構築されている。
論文 参考訳(メタデータ) (2023-07-10T16:46:34Z) - mmT5: Modular Multilingual Pre-Training Solves Source Language
Hallucinations [54.42422445568523]
mmT5はモジュール型多言語シーケンス・ツー・シーケンスモデルである。
言語固有の情報を言語に依存しない情報から切り離す。
mT5と比較して、mT5はゼロショット設定で正しい言語でテキストを生成する率を7%から99%に向上させる。
論文 参考訳(メタデータ) (2023-05-23T16:38:01Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。