論文の概要: Selecting and Combining Large Language Models for Scalable Code Clone Detection
- arxiv url: http://arxiv.org/abs/2510.15480v1
- Date: Fri, 17 Oct 2025 09:51:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.562288
- Title: Selecting and Combining Large Language Models for Scalable Code Clone Detection
- Title(参考訳): スケーラブルコードクローン検出のための大規模言語モデルの選択と組み合わせ
- Authors: Muslim Chochlov, Gul Aftab Ahmed, James Vincent Patten, Yuanhua Han, Guoxian Lu, David Gregg, Jim Buckley,
- Abstract要約: ソースコードクローンは、知的財産権侵害から意図しない脆弱性まで幅広いリスクを引き起こす。
本稿では,76大言語モデル(LLM)を特定し,大規模クローン検出に適した候補にフィルタリングする。
しかし、CodeT5+110M、CuBERT、SPTCodeはトップパフォーマンス者だった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Source code clones pose risks ranging from intellectual property violations to unintended vulnerabilities. Effective and efficient scalable clone detection, especially for diverged clones, remains challenging. Large language models (LLMs) have recently been applied to clone detection tasks. However, the rapid emergence of LLMs raises questions about optimal model selection and potential LLM-ensemble efficacy. This paper addresses the first question by identifying 76 LLMs and filtering them down to suitable candidates for large-scale clone detection. The candidates were evaluated on two public industrial datasets, BigCloneBench, and a commercial large-scale dataset. No uniformly 'best-LLM' emerged, though CodeT5+110M, CuBERT and SPTCode were top-performers. Analysis of LLM-candidates suggested that smaller embedding sizes, smaller tokenizer vocabularies and tailored datasets are advantageous. On commercial large-scale dataset a top-performing CodeT5+110M achieved 39.71\% precision: twice the precision of previously used CodeBERT. To address the second question, this paper explores ensembling of the selected LLMs: effort-effective approach to improving effectiveness. Results suggest the importance of score normalization and favoring ensembling methods like maximum or sum over averaging. Also, findings indicate that ensembling approach can be statistically significant and effective on larger datasets: the best-performing ensemble achieved even higher precision of 46.91\% over individual LLM on the commercial large-scale code.
- Abstract(参考訳): ソースコードクローンは、知的財産権侵害から意図しない脆弱性まで幅広いリスクを引き起こす。
効率的なスケーラブルなクローン検出、特に分岐クローンは、依然として困難である。
大規模言語モデル(LLM)は、最近クローン検出タスクに応用されている。
しかし、LLMの急速な出現は、最適モデル選択と潜在的LLMアンサンブルの有効性に関する疑問を提起する。
本稿では,76個のLLMを同定し,大規模クローン検出に適した候補にフィルタリングすることで,最初の問題に対処する。
候補は、BigCloneBenchという2つのパブリックな産業データセットと、商用の大規模データセットで評価された。
しかし、CodeT5+110M、CuBERT、SPTCodeはトップパフォーマンス者だった。
LLM候補の分析から, 埋め込みサイズが小さく, トークン化剤の語彙が小さく, カスタマイズされたデータセットが有利であることが示唆された。
商用の大規模データセットでは、トップパフォーマンスのCodeT5+110Mが39.71 %の精度を達成した。
第2の課題に対処するために,本論文では,選択したLLMのアンサンブルについて検討する。
その結果,スコア正規化の重要性が示唆され,平均値よりも最大値や和値などのアンサンブル手法が好まれた。
また、アンサンブル手法はより大規模なデータセットに対して統計的に有意かつ有効である可能性が示唆され、最も高い性能のアンサンブルは商業的大規模コード上で個々のLLMよりも46.91\%高い精度で達成された。
関連論文リスト
- ActiveDPO: Active Direct Preference Optimization for Sample-Efficient Alignment [94.36403843133616]
人間の好みを使って大きな言語モデル(LLM)を整列させると、さまざまな下流タスクのパフォーマンスが大幅に向上する。
既存の方法には強い理論的な基礎が欠けているか、制限的な報酬関数の仮定に依存している。
非線型報酬関数に対して理論的に基底化されたデータ選択基準を用いるアルゴリズムであるActiveDPOを提案する。
論文 参考訳(メタデータ) (2025-05-25T17:42:52Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Are Decoder-Only Large Language Models the Silver Bullet for Code Search? [44.9422305001193]
コード検索はコードの再利用に不可欠であり、開発者は関連コードスニペットを効率的に見つけることができる。
強力なデコーダのみの大規模言語モデル(LLM)は多くのコードインテリジェンスタスクに革命をもたらした。
本稿では,11個のデコーダのみのLCMのシステム評価を行い,その性能をゼロショットと微調整で解析する。
論文 参考訳(メタデータ) (2024-10-29T17:05:25Z) - SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる顕著な性能のために広く採用されている。
これらの個々のLCMは、固有のトレーニングバイアス、モデルサイズ制約、トレーニング前のデータセットの品質や多様性による、複雑なタスクの一般化とパフォーマンスの制限を示す。
本稿では,入力クエリをLLMの最も適切なサブセットに効率的に誘導するSelectLLMを紹介する。
論文 参考訳(メタデータ) (2024-08-16T06:11:21Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - CURATRON: Complete and Robust Preference Data for Rigorous Alignment of Large Language Models [1.6339731044538859]
本稿では,大規模言語モデルと人間の価値観を協調する上での課題について考察する。
本稿では,LLMのレジリエンスを高めるために,堅牢で悪意のあるAIパイプラインデータセットを提案する。
論文 参考訳(メタデータ) (2024-03-05T07:58:12Z) - Identifying Factual Inconsistencies in Summaries: Grounding LLM Inference via Task Taxonomy [48.29181662640212]
事実的矛盾は、生成モデルによる忠実な要約にとって重要なハードルとなる。
我々は,要約中の不整合事実のキーエラータイプを集約し,ゼロショットと教師付きパラダイムの両方を容易にするためにそれらを組み込んだ。
論文 参考訳(メタデータ) (2024-02-20T08:41:23Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。