論文の概要: Standing on the Shoulders of Giants: Stabilized Knowledge Distillation for Cross--Language Code Clone Detection
- arxiv url: http://arxiv.org/abs/2605.02860v1
- Date: Mon, 04 May 2026 17:37:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.436459
- Title: Standing on the Shoulders of Giants: Stabilized Knowledge Distillation for Cross--Language Code Clone Detection
- Title(参考訳): ジャイアンツの肩に立つ:クロスランゲージコードクローン検出のための安定化知識蒸留
- Authors: Mohamad Khajezade, Fatemeh H. Fard, Mohamed Sami Shehata,
- Abstract要約: 言語間のコードクローン検出(X-CCD)は、異なる言語で書かれた意味論的に等価なプログラムでは、表面的類似性がほとんどないため困難である。
本稿では,DeepSeek-R1 から X-CCD 検出のためのコンパクトなオープンソース学生モデルへの推論能力を伝達する知識蒸留フレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.2116198597240846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-language code clone detection (X-CCD) is challenging because semantically equivalent programs written in different languages often share little surface similarity. Although large language models (LLMs) have shown promise for semantic clone detection, their use as black-box systems raises concerns about cost, reproducibility, privacy, and unreliable output formatting. In particular, compact open-source models often struggle to follow reasoning-oriented prompts and to produce outputs that can be consistently mapped to binary clone labels. To address these limitations, we propose a knowledge distillation framework that transfers reasoning capabilities from DeepSeek-R1 into compact open-source student models for X-CCD. Using cross-language code pairs derived from Project CodeNet, we construct reasoning-oriented synthetic training data and fine-tune Phi3 and Qwen-Coder with LoRA adapters. We further introduce response stabilization methods, including forced conclusion prompting, a binary classification head, and a contrastive classification head, and evaluate model behavior using both predictive metrics and response rate. Experiments on Python--Java, Rust--Java, Rust--Python, and Rust--Ruby show that knowledge distillation consistently improves the reliability of compact models and often improves predictive performance, especially under distribution shift. In addition, classification-head variants substantially reduce inference time compared to generation-based inference. Overall, our results show that reasoning-oriented distillation combined with response stabilization makes compact open-source models more practical and reliable for X-CCD detection.
- Abstract(参考訳): 言語間のコードクローン検出(X-CCD)は、異なる言語で書かれた意味論的に等価なプログラムでは、表面的類似性がほとんどないため困難である。
大きな言語モデル(LLM)はセマンティッククローンの検出を約束しているが、ブラックボックスシステムとしての使用は、コスト、再現性、プライバシ、信頼性の低い出力フォーマットに関する懸念を引き起こす。
特に、コンパクトなオープンソースモデルは、推論指向のプロンプトに従い、バイナリクローンラベルに一貫してマッピングできる出力を生成するのに苦労することが多い。
これらの制約に対処するために,DeepSeek-R1 から X-CCD 用のコンパクトなオープンソース学生モデルに推論能力を伝達する知識蒸留フレームワークを提案する。
Project CodeNetから派生したクロス言語コードペアを用いて、推論指向の合成トレーニングデータと、LoRAアダプタを用いた微調整Phi3とQwen-Coderを構築する。
さらに、強制的な結論プロンプト、二項分類ヘッド、および対照的な分類ヘッドを含む応答安定化手法を導入し、予測指標と応答率の両方を用いてモデル挙動を評価する。
Python-Java、Rust--Java、Rust-Python、Rust-Rubyの実験は、知識の蒸留がコンパクトモデルの信頼性を一貫して改善し、特に分散シフト時の予測性能を向上することを示している。
さらに、分類頭変種は世代ベースの推論に比べて推論時間を著しく短縮する。
以上の結果から,提案手法と応答安定化を併用した推論指向蒸留により,X-CCD検出においてより実用的で信頼性の高いオープンソースモデルが得られることが示唆された。
関連論文リスト
- SpecSteer: Synergizing Local Context and Global Reasoning for Efficient Personalized Generation [79.75755802397312]
SpecSteerは非対称な協調推論フレームワークで、デバイス上のプライベートコンテキストとクラウドスケールの推論を相乗化する。
実験により、SpecSteerは推論のギャップを埋め、パーソナライズされた生成性能を向上することを示した。
論文 参考訳(メタデータ) (2026-03-17T07:51:29Z) - Thinking by Subtraction: Confidence-Driven Contrastive Decoding for LLM Reasoning [58.331709210563616]
サブトラクションによる思考は、信頼主導のコントラスト的デコーディングアプローチである。
低信頼トークンの小さなサブセットは、誤りの推論と不要な出力拡大に不当に寄与する。
信頼駆動型コントラストデコーディング(Confidence-Driven Contrastive Decoding)は,デコーディング中の低信頼トークンを検出し,それらの位置で介入する。
論文 参考訳(メタデータ) (2026-02-20T14:13:22Z) - Reliability Under Randomness: An Empirical Analysis of Sparse and Dense Language Models Across Decoding Temperatures [0.0]
スパースMoEモデルにおける条件計算がデコードによるランダム性を増幅し、温度上昇とともに信頼性を低下させるかを検討する。
その結果、スパース命令調整モデルでは、全ての復号温度で高密度命令調整モデルに匹敵する安定性を示すことが示された。
信頼性クリティカルなアプリケーションにスパース言語モデルを展開する上で,これらの結果がもたらす意味について論じる。
論文 参考訳(メタデータ) (2026-01-02T18:10:10Z) - Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - RoParQ: Paraphrase-Aware Alignment of Large Language Models Towards Robustness to Paraphrased Questions [0.0]
大規模言語モデル(LLM)は、パラフレーズ付き質問に答えるときに矛盾する振る舞いを示すことが多い。
クローズドブック多重選択QAにおけるクロスパラフレーズ一貫性を評価するベンチマークであるRoParQを紹介する。
また、モデルのロバスト性を定量化する新しい評価指標XParaConを提案する。
論文 参考訳(メタデータ) (2025-11-26T16:40:53Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Extractive Fact Decomposition for Interpretable Natural Language Inference in one Forward Pass [4.990228412613982]
JEDIは、原子の事実分解と解釈可能な推論を共同で行うエンコーダのみのアーキテクチャである。
学習を容易にするため、複数のNLIベンチマークをカバーする合成的合理性の大規模なコーパスを生成する。
本研究は, エンコーダのみのアーキテクチャと合成論理を用いて, NLIの解釈可能性とロバストな一般化を実現することができることを示す。
論文 参考訳(メタデータ) (2025-09-23T11:30:42Z) - TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation [31.231916859341865]
TrustRAGは、生成のために取得される前に、悪意のある、無関係なコンテンツを体系的にフィルタリングするフレームワークである。
TrustRAGは、検索精度、効率、攻撃抵抗を大幅に改善する。
論文 参考訳(メタデータ) (2025-01-01T15:57:34Z) - AdaCCD: Adaptive Semantic Contrasts Discovery Based Cross Lingual
Adaptation for Code Clone Detection [69.79627042058048]
AdaCCDは、その言語でアノテーションを使わずに、新しい言語のクローンコードを検出する新しい言語間適応手法である。
5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。
論文 参考訳(メタデータ) (2023-11-13T12:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。