Fugu-MT 論文翻訳(概要): Detecting Essence Code Clones via Information Theoretic Analysis

論文の概要: Detecting Essence Code Clones via Information Theoretic Analysis

arxiv url: http://arxiv.org/abs/2502.19219v1
Date: Wed, 26 Feb 2025 15:23:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-27 15:24:46.552983
Title: Detecting Essence Code Clones via Information Theoretic Analysis
Title（参考訳）: 情報理論解析によるエッセンスコードクローンの検出
Authors: Lida Zhao, Shihan Dou, Yutao Hu, Yueming Wu, Jiahui Wu, Chengwei Liu, Lyuye Zhang, Yi Liu, Jun Sun, Xuanjing Huang, Yang Liu,
Abstract要約: コードのクローンには、時間の節約のためにコードの断片を複製するが、ソフトウェア保守性と品質を犠牲にすることが多い。 essence clones" はType-3クローンの複雑なサブタイプであり、周辺コードが異なるにもかかわらず重要なロジックを共有するのが特徴である。伝統的なテクニックは、しばしばその構文的焦点のため、自然クローンを検出するのに失敗する。本稿では,コード行の意味的重要性を評価するために情報理論を利用した新しい検出ツールECScanを紹介する。
参考スコア（独自算出の注目度）: 28.696542467142983
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Code cloning, a widespread practice in software development, involves replicating code fragments to save time but often at the expense of software maintainability and quality. In this paper, we address the specific challenge of detecting "essence clones", a complex subtype of Type-3 clones characterized by sharing critical logic despite different peripheral codes. Traditional techniques often fail to detect essence clones due to their syntactic focus. To overcome this limitation, we introduce ECScan, a novel detection tool that leverages information theory to assess the semantic importance of code lines. By assigning weights to each line based on its information content, ECScan emphasizes core logic over peripheral code differences. Our comprehensive evaluation across various real-world projects shows that ECScan significantly outperforms existing tools in detecting essence clones, achieving an average F1-score of 85%. It demonstrates robust performance across all clone types and offers exceptional scalability. This study advances clone detection by providing a practical tool for developers to enhance code quality and reduce maintenance burdens, emphasizing the semantic aspects of code through an innovative information-theoretic approach.
Abstract（参考訳）: コードのクローン化は、ソフトウェア開発で広く行われているプラクティスで、コードの断片を複製して時間を節約するが、ソフトウェア保守性と品質を犠牲にすることが多い。本稿では, 周辺コードが異なるにもかかわらず, クリティカルロジックを共有することで特徴付けられる, Type-3クローンの複雑なサブタイプである"essence clones"を検出するという課題に対処する。伝統的なテクニックは、しばしばその構文的焦点のため、エッセンスクローンの検出に失敗する。この制限を克服するため,コード行の意味的重要性を評価するために情報理論を利用した新しい検出ツールECScanを導入する。情報内容に基づいて各行に重みを割り当てることにより、ECScanは周辺コードの違いよりもコアロジックを強調する。実世界の様々なプロジェクトに対する総合的な評価の結果、ECScanはエッセンスクローンの検出において既存のツールよりも優れており、平均F1スコアは85%である。すべてのクローンタイプに対して堅牢なパフォーマンスを示し、例外的なスケーラビリティを提供します。本研究では,コード品質の向上とメンテナンスの負担を軽減するための実用的なツールを提供することにより,コードの意味的側面を革新的な情報理論的アプローチによって強調することにより,クローン検出を推し進める。

関連論文リスト

Are Classical Clone Detectors Good Enough For the AI Era? [5.2308433103996625]
AI生成コードの採用の増加は、現代のソフトウェア開発を形変えた。 AI生成クローンは、大規模なトレーニングデータから学んだ体系的な構文パターンと意味的差異を示す。古典的なコードクローン検出ツールは、歴史的に主に人間による認証で検証されてきた。
論文参考訳（メタデータ） (2025-09-30T04:19:17Z)
CodeEvo: Interaction-Driven Synthesis of Code-centric Data through Hybrid and Iterative Feedback [21.627909324788597]
大規模言語モデルの訓練には高品質な命令コードペアの獲得が不可欠である。 2つのLLMエージェント間の反復的な相互作用を通じてコードデータを合成するフレームワークであるCodeEvoを提案する。
論文参考訳（メタデータ） (2025-07-25T16:12:51Z)
VulCoCo: A Simple Yet Effective Method for Detecting Vulnerable Code Clones [11.650715913321076]
VulCoCoは、脆弱なコードクローンを検出する軽量でスケーラブルなアプローチである。まず、様々なクローンタイプにまたがる合成ベンチマークを構築します。我々の実験によると、VulCoCoは精度@kと平均精度(MAP)で最先端の手法よりも優れている。
論文参考訳（メタデータ） (2025-07-22T14:54:57Z)
Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文参考訳（メタデータ） (2025-05-16T16:59:14Z)
CC2Vec: Combining Typed Tokens with Contrastive Learning for Effective Code Clone Detection [20.729032739935132]
CC2Vecは、単純なコードクローンを素早く識別するために設計された新しいコード符号化手法である。広く使われている2つのデータセット(BigCloneBenchとGoogle Code Jam)上でCC2Vecを評価する。
論文参考訳（メタデータ） (2024-05-01T10:18:31Z)
CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。 CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保持するために追加情報を挿入する。 5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文参考訳（メタデータ） (2024-04-24T04:25:04Z)
Accurate and Well-Calibrated ICD Code Assignment Through Attention Over Diverse Label Embeddings [1.201425717264024]
ICDコードを臨床テキストに手動で割り当てるのは、時間がかかり、エラーが発生し、コストがかかる。本稿では,ICDの自動符号化のための新しい手法について述べる。 MIMIC-IIIデータセットの異なる分割による実験は、提案手法がICD符号化における現在の最先端モデルより優れていることを示している。
論文参考訳（メタデータ） (2024-02-05T16:40:23Z)
Between Lines of Code: Unraveling the Distinct Patterns of Machine and Human Programmers [14.018844722021896]
機械および人為的なコードの特徴を特徴付ける特定のパターンについて検討する。本研究では,機械生成コード検出のための新しい手法であるTectCodeGPTを提案する。
論文参考訳（メタデータ） (2024-01-12T09:15:20Z)
AdaCCD: Adaptive Semantic Contrasts Discovery Based Cross Lingual Adaptation for Code Clone Detection [69.79627042058048]
AdaCCDは、その言語でアノテーションを使わずに、新しい言語のクローンコードを検出する新しい言語間適応手法である。 5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。
論文参考訳（メタデータ） (2023-11-13T12:20:48Z)
Using a Nearest-Neighbour, BERT-Based Approach for Scalable Clone Detection [0.0]
SSCDはBERTベースのクローン検出アプローチで、Type 3とType 4のクローンの大規模なリコールをターゲットとしている。これは、各コードフラグメントへの代表埋め込みを計算し、近くの検索を使って類似のフラグメントを見つけることで実現している。本稿では,産業環境でのアプローチの設定と評価に対するアプローチと経験的評価について述べる。
論文参考訳（メタデータ） (2023-09-05T12:38:55Z)
CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文参考訳（メタデータ） (2023-06-05T20:39:08Z)
A Weakly Supervised Learning Framework for Salient Object Detection via Hybrid Labels [96.56299163691979]
本稿では,ハイブリッドラベル下でのSODタスクに焦点をあてる。このタスクにおけるラベルノイズと量不均衡の問題に対処するため、我々は3つの洗練されたトレーニング戦略を持つ新しいパイプラインフレームワークを設計する。 5つのSODベンチマーク実験により,本手法は弱教師付き/非教師付き手法と競合する性能を示した。
論文参考訳（メタデータ） (2022-09-07T06:45:39Z)
String-based Molecule Generation via Multi-decoder VAE [56.465033997245776]
可変オートエンコーダ(VAE)による文字列型分子生成の問題点について検討する。本稿では,そのタスクに対するVAEの性能を改善するための,シンプルで効果的なアイデアを提案する。実験では,提案するVAEモデルを用いて,領域外分布からサンプルを生成する。
論文参考訳（メタデータ） (2022-08-23T03:56:30Z)
A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文参考訳（メタデータ） (2020-05-01T23:29:36Z)
Detecting Code Clones with Graph Neural Networkand Flow-Augmented Abstract Syntax Tree [30.484662671342935]
フロー拡張抽象構文木(FA-AST)と呼ばれるプログラムのグラフ表現を構築する。 FA-ASTに2種類のグラフニューラルネットワークを適用し、コードペアの類似性を計測する。当社のアプローチは,Google Code JamとBigCloneBenchタスクの両面で,最先端のアプローチよりも優れています。
論文参考訳（メタデータ） (2020-02-20T10:18:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。