Fugu-MT 論文翻訳(概要): Advanced Detection of Source Code Clones via an Ensemble of Unsupervised Similarity Measures

論文の概要: Advanced Detection of Source Code Clones via an Ensemble of Unsupervised Similarity Measures

arxiv url: http://arxiv.org/abs/2405.02095v2
Date: Wed, 30 Oct 2024 14:01:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.205208
Title: Advanced Detection of Source Code Clones via an Ensemble of Unsupervised Similarity Measures
Title（参考訳）: 教師なし類似度尺度のアンサンブルによるソースコードクローンの高度検出
Authors: Jorge Martinez-Gil,
Abstract要約: 本研究では,コード類似度評価のための新しいアンサンブル学習手法を提案する。鍵となる考え方は、様々な類似度尺度の強みが互いに補完し、個々の弱点を軽減することである。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The capability of accurately determining code similarity is crucial in many tasks related to software development. For example, it might be essential to identify code duplicates for performing software maintenance. This research introduces a novel ensemble learning approach for code similarity assessment, combining the strengths of multiple unsupervised similarity measures. The key idea is that the strengths of a diverse set of similarity measures can complement each other and mitigate individual weaknesses, leading to improved performance. Preliminary results show that while Transformers-based CodeBERT and its variant GraphCodeBERT are undoubtedly the best option in the presence of abundant training data, in the case of specific small datasets (up to 500 samples), our ensemble achieves similar results, without prejudice to the interpretability of the resulting solution, and with a much lower associated carbon footprint due to training. The source code of this novel approach can be downloaded from https://github.com/jorge-martinez-gil/ensemble-codesim.
Abstract（参考訳）: コードの類似性を正確に決定する能力は、ソフトウェア開発に関連する多くのタスクにおいて不可欠である。例えば、ソフトウェアのメンテナンスを実行する上で、コードの重複を特定することが不可欠かもしれません。本研究では,コード類似度評価のための新しいアンサンブル学習手法を導入し,複数の教師なし類似度尺度の強みを組み合わせた。鍵となる考え方は、様々な類似度尺度の強みが互いに補完し、個々の弱点を緩和し、パフォーマンスを向上させることである。予備的な結果は、TransformersベースのCodeBERTとその変種GraphCodeBERTが、豊富なトレーニングデータの存在下では、間違いなく最良の選択肢であることを示している。この新しいアプローチのソースコードはhttps://github.com/jorge-martinez-gil/ensemble-codesimからダウンロードできる。

関連論文リスト

Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文参考訳（メタデータ） (2025-10-02T06:25:10Z)
Alignment with Fill-In-the-Middle for Enhancing Code Generation [56.791415642365415]
コードスニペットを小さな粒度のブロックに分割し,同じテストケースからより多様なDPOペアを生成する手法を提案する。提案手法は,HumanEval (+), MBPP (+), APPS, LiveCodeBench, BigCodeBenchといったベンチマークデータセットの実験によって検証された,コード生成タスクの大幅な改善を示す。
論文参考訳（メタデータ） (2025-08-27T03:15:53Z)
Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文参考訳（メタデータ） (2025-05-16T16:59:14Z)
KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding [49.56049319037421]
KodCodeは、高品質で検証可能なトレーニングデータを取得するという永続的な課題に対処する、合成データセットである。自己検証手順によって体系的に検証される質問解決テスト三つ子を含む。このパイプラインは大規模で堅牢で多様なコーディングデータセットを生成する。
論文参考訳（メタデータ） (2025-03-04T19:17:36Z)
UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-02-17T05:37:02Z)
Optimizing Datasets for Code Summarization: Is Code-Comment Coherence Enough? [11.865113785648932]
コード要約の特定の品質属性であるコード圧縮コヒーレンスが、コードの要約データセットの最適化にどの程度利用できるかを検討する。 2つの最先端データセット(TL-CodeSumとFuncom)から複数のレベルのトレーニングインスタンスを調べ、3つの手作業によるテストセット上で結果モデルを評価する。
論文参考訳（メタデータ） (2025-02-11T15:02:19Z)
Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。 IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-10-24T09:09:20Z)
Source Code Clone Detection Using Unsupervised Similarity Measures [0.0]
本研究は,ソースコードのクローン検出のための教師なし類似度尺度の比較分析を行う。目標は、現在の最先端技術、その強み、弱点を概観することである。
論文参考訳（メタデータ） (2024-01-18T10:56:27Z)
Boosting Commit Classification with Contrastive Learning [0.8655526882770742]
コミット分類(CC)は、ソフトウェアのメンテナンスにおいて重要なタスクである。対照的な学習に基づくコミット分類フレームワークを提案する。われわれのフレームワークはCCの問題をシンプルに解決できるが、スプリットショットのシナリオでは効果的に解決できる。
論文参考訳（メタデータ） (2023-08-16T10:02:36Z)
CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文参考訳（メタデータ） (2022-11-25T18:05:44Z)
Evaluation of Contrastive Learning with Various Code Representations for Code Clone Detection [3.699097874146491]
コードスニペットの意味的クローンを検出するためのコントラスト学習の評価を行った。 CodeTransformatorを使って、競争力のあるプログラミングソリューションに基づいて、プラジャライズされたコードを模倣するデータセットを作成します。評価の結果,提案手法は各タスクにおいて多種多様な性能を示すが,グラフベースモデルの性能は概して他のモデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2022-06-17T12:25:44Z)
Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-04-07T08:49:27Z)
BatchFormer: Learning to Explore Sample Relationships for Robust Representation Learning [93.38239238988719]
本稿では,各ミニバッチからサンプル関係を学習可能なディープニューラルネットワークを提案する。 BatchFormerは各ミニバッチのバッチ次元に適用され、トレーニング中のサンプル関係を暗黙的に探索する。我々は10以上のデータセットに対して広範な実験を行い、提案手法は異なるデータ不足アプリケーションにおいて大幅な改善を実現する。
論文参考訳（メタデータ） (2022-03-03T05:31:33Z)
Self-Supervised Bernoulli Autoencoders for Semi-Supervised Hashing [1.8899300124593648]
本稿では,変分オートエンコーダに基づくハッシュ手法のロバスト性と,監督の欠如について検討する。本稿では,モデルがラベル分布予測を用いて一対の目的を実現する新しい監視手法を提案する。実験の結果,いずれの手法もハッシュコードの品質を大幅に向上させることができることがわかった。
論文参考訳（メタデータ） (2020-07-17T07:47:10Z)
A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文参考訳（メタデータ） (2020-05-01T23:29:36Z)
Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。自動エンコーダのコンテキストでデコードすることで更新される。ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文参考訳（メタデータ） (2020-02-27T05:58:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。