論文の概要: Functional Consistency of LLM Code Embeddings: A Self-Evolving Data Synthesis Framework for Benchmarking
- arxiv url: http://arxiv.org/abs/2508.19558v1
- Date: Wed, 27 Aug 2025 04:17:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.486815
- Title: Functional Consistency of LLM Code Embeddings: A Self-Evolving Data Synthesis Framework for Benchmarking
- Title(参考訳): LLMコード埋め込みの機能一貫性:ベンチマークのための自己進化型データ合成フレームワーク
- Authors: Zhuohao Li, Wenqing Chen, Jianxing Yu, Zhichao Lu,
- Abstract要約: 埋め込みモデルは、クラスタリング、検索、特徴抽出といったタスクにおいて強力な性能を示し、生成モデルやクロスエンコーダよりも計算上の利点を提供している。
本稿では,多種多様なベンチマークを構築するために,関数指向コード自己進化という新しいデータ合成フレームワークを提案する。
私たちのフレームワークは、単一のコードインスタンスから4つのユニークなバリエーションを生成します。
- 参考スコア(独自算出の注目度): 23.980033692974278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embedding models have demonstrated strong performance in tasks like clustering, retrieval, and feature extraction while offering computational advantages over generative models and cross-encoders. Benchmarks such as MTEB have shown that text embeddings from large language models (LLMs) capture rich semantic information, but their ability to reflect code-level functional semantics remains unclear. Existing studies largely focus on code clone detection, which emphasizes syntactic similarity and overlooks functional understanding. In this paper, we focus on the functional consistency of LLM code embeddings, which determines if two code snippets perform the same function regardless of syntactic differences. We propose a novel data synthesis framework called Functionality-Oriented Code Self-Evolution to construct diverse and challenging benchmarks. Specifically, we define code examples across four semantic and syntactic categories and find that existing datasets predominantly capture syntactic properties. Our framework generates four unique variations from a single code instance, providing a broader spectrum of code examples that better reflect functional differences. Extensive experiments on three downstream tasks-code clone detection, code functional consistency identification, and code retrieval-demonstrate that embedding models significantly improve their performance when trained on our evolved datasets. These results highlight the effectiveness and generalization of our data synthesis framework, advancing the functional understanding of code.
- Abstract(参考訳): 埋め込みモデルは、クラスタリング、検索、特徴抽出といったタスクにおいて強力な性能を示し、生成モデルやクロスエンコーダよりも計算上の利点を提供している。
MTEBなどのベンチマークでは、大きな言語モデル(LLM)からのテキスト埋め込みがリッチな意味情報をキャプチャすることを示したが、コードレベルの機能的意味論を反映する能力は未だに不明である。
既存の研究は主にコードクローンの検出に重点を置いており、構文的類似性を強調し、機能的理解を見落としている。
本稿では,LLMコード埋め込みの機能的整合性に着目し,構文の違いにかかわらず2つのコードスニペットが同じ機能を実行するかどうかを判定する。
本稿では,多種多様なベンチマークを構築するために,関数指向コード自己進化という新しいデータ合成フレームワークを提案する。
具体的には,4つのセマンティックカテゴリと構文カテゴリのコード例を定義し,既存のデータセットが主に構文特性をキャプチャすることを示す。
私たちのフレームワークは、単一のコードインスタンスから4つのユニークなバリエーションを生成します。
3つの下流タスク-コードクローン検出、コード機能の整合性同定、および埋め込みモデルによるコード検索-デモレートに関する大規模な実験により、進化したデータセットでトレーニングした際のパフォーマンスが大幅に向上した。
これらの結果は,我々のデータ合成フレームワークの有効性と一般化を強調し,コードの機能的理解を促進した。
関連論文リスト
- HyClone: Bridging LLM Understanding and Dynamic Execution for Semantic Code Clone Detection [3.2167919219391474]
コードクローン検出(Code clone detection)は、ソフトウェア工学において重要なタスクであり、ソフトウェアシステム内の重複や類似のコードフラグメントを識別することを目的としている。
大規模言語モデル(LLM)の最近の進歩は、コードセマンティクスの理解において有望であることを示している。
LLMに基づくスクリーニングと,Pythonプログラムのセマンティッククローンを検出するための実行ベースの検証を組み合わせた,新しい2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-02T13:11:56Z) - MGS3: A Multi-Granularity Self-Supervised Code Search Framework [22.214324677526132]
マルチグラニュラリティ自己監督型コントラスト学習コード検索フレームワーク(MGS$3$)について紹介する。
まず、MGS$3$ は Supervised Multi-Granularity Representation Module (HMGR) を特徴としている。
様々な粒度のコード検索ベンチマーク実験を行い、複数の粒度のコード検索タスクにおいて優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2025-05-30T06:49:39Z) - EpiCoder: Encompassing Diversity and Complexity in Code Generation [49.170195362149386]
既存のコード生成方法はシードデータとしてコードスニペットを使用する。
階層的なコード機能を中心に展開する,新しい機能ツリーベースの合成フレームワークを提案する。
我々のフレームワークは、生成されたコードの複雑さを正確に制御し、関数レベルの操作からマルチファイルのシナリオまで幅広い機能を実現する。
論文 参考訳(メタデータ) (2025-01-08T18:58:15Z) - CodeSAM: Source Code Representation Learning by Infusing Self-Attention with Multi-Code-View Graphs [8.850533100643547]
我々は,複数のコードビューをトランスフォーマーベースモデルに注入する新しいフレームワークであるCodeSAMを提案する。
CodeSAMを使って、セマンティックコード検索、コードクローン検出、プログラム分類の下流SEタスクでCodeBERTのような小さな言語モデル(SLM)を微調整します。
論文 参考訳(メタデータ) (2024-11-21T22:24:47Z) - Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。