論文の概要: CodeMorph: Mitigating Data Leakage in Large Language Model Assessment
- arxiv url: http://arxiv.org/abs/2506.17627v1
- Date: Sat, 21 Jun 2025 08:04:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.511969
- Title: CodeMorph: Mitigating Data Leakage in Large Language Model Assessment
- Title(参考訳): CodeMorph: 大規模言語モデルアセスメントにおけるデータ漏洩の軽減
- Authors: Hongzhou Rao, Yanjie Zhao, Wenjie Zhu, Ling Xiao, Meizhen Wang, Haoyu Wang,
- Abstract要約: コードのための大規模言語モデルのベンチマークリークに関する懸念は、データ汚染とインフレーションされた評価指標の問題を提起している。
我々は、複数のプログラミング言語をサポートするために設計されたアプローチであるCodeMorphを提案し、データ漏洩を軽減するために、ファイル間の依存関係を保存する。
- 参考スコア(独自算出の注目度): 6.27974411661361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Concerns about benchmark leakage in large language models for code (Code LLMs) have raised issues of data contamination and inflated evaluation metrics. The diversity and inaccessibility of many training datasets make it difficult to prevent data leakage entirely, even with time lag strategies. Consequently, generating new datasets through code perturbation has become essential. However, existing methods often fail to produce complex and diverse variations, struggle with complex cross-file dependencies, and lack support for multiple programming languages, which limits their effectiveness in enhancing LLM evaluations for coding tasks. To fill this gap, we propose CodeMorph, an approach designed to support multiple programming languages while preserving cross-file dependencies to mitigate data leakage. CodeMorph consists of two main components that work together to enhance the perturbation process. The first component employs 26 semantic-preserving transformation methods to iteratively perturb code, generating diverse variations while ensuring that the modified code remains compilable. The second component introduces a genetic algorithm-based selection algorithm, PESO, to identify the more effective perturbation method for each iteration by targeting lower similarity scores between the perturbed and original code, thereby enhancing overall perturbation effectiveness. Experimental results demonstrate that after applying CodeMorph, the accuracy of the LLM on code completion tasks across five programming languages decreased by an average of 24.67%, with Python showing the most significant reduction at 45%. The similarity score of code optimized by PESO is, on average, 7.01% lower than that of randomly perturbed code, peaking at a reduction of 42.86%.
- Abstract(参考訳): コードのための大規模言語モデル(Code LLM)のベンチマークリークに関する懸念は、データ汚染とインフレーションされた評価指標の問題を提起している。
多くのトレーニングデータセットの多様性とアクセシビリティにより、タイムラグ戦略であっても、データの漏洩を完全に防止することは困難である。
そのため、コード摂動によって新しいデータセットを生成することが不可欠になっている。
しかし、既存のメソッドは複雑で多様なバリエーションを生み出すことができず、複雑なファイル間の依存関係に悩まされ、複数のプログラミング言語のサポートが欠如している。
このギャップを埋めるために、複数のプログラミング言語をサポートするために設計されたアプローチであるCodeMorphを提案する。
CodeMorphは、摂動プロセスを強化するために協力する2つの主要なコンポーネントで構成されている。
第1のコンポーネントは26のセマンティック保存変換メソッドを使用して反復的な摂動コードを生成する。
第2のコンポーネントは、遺伝的アルゴリズムに基づく選択アルゴリズムPESOを導入し、摂動と原コードの類似点の低い点を目標とし、各反復に対してより効果的な摂動法を特定することにより、全体的な摂動効果を向上させる。
実験の結果、CodeMorphを適用すると、5つのプログラミング言語のコード補完タスクにおけるLLMの精度が平均24.67%低下し、Pythonは45%で最大の低下を示した。
PESOによって最適化されたコードの類似度スコアは、平均してランダムに摂動されたコードよりも7.01%低く、42.86%の減少でピークに達した。
関連論文リスト
- Program Semantic Inequivalence Game with Large Language Models [10.358176296850639]
大きな言語モデル(LLM)は、日々のコーディングタスクにおいて強力なパフォーマンスを達成することができるが、プログラムのセマンティクスに関する非自明な推論を必要とする複雑なタスクでは失敗する可能性がある。
本研究では,意味的不等価ゲームSInQに基づいて,コード推論学習データを合成的に生成する手法について検討する。
この設定により、無限の計算資源の限界における自己再生による理論的に無制限な改善が可能であることを証明した。
論文 参考訳(メタデータ) (2025-05-02T20:03:35Z) - ObscuraCoder: Powering Efficient Code LM Pre-Training Via Obfuscation Grounding [60.37988508851391]
言語モデル(LM)は、コード記述ツールボックスのベースとなっている。
Code-LMの事前学習目標の変更を探求する研究は、データ効率の向上と構文とセマンティクスの相互接続性の向上を目的としており、顕著に不十分である。
本研究では,Code-LMが表面的な構文を超越し,事前学習したサンプルの効率を高めるために,難読化コードの基盤について検討する。
論文 参考訳(メタデータ) (2025-03-27T23:08:53Z) - DynaCode: A Dynamic Complexity-Aware Code Benchmark for Evaluating Large Language Models in Code Generation [20.75363011870647]
DynaCodeは、大規模言語モデル(LLM)のための動的で複雑さを意識したベンチマークである。
複雑性を意識したメトリクスを使用して、LLMを体系的に評価し、コードの複雑さとコールグラフ構造の両方を取り入れる。
最新の12のLCMでは、静的コード生成ベンチマークであるMBPP+と比較して平均パフォーマンスが16.8%から45.7%低下している。
論文 参考訳(メタデータ) (2025-03-13T15:18:56Z) - EffiCoder: Enhancing Code Generation in Large Language Models through Efficiency-Aware Fine-tuning [17.355845751737423]
大規模言語モデル(LLM)は、コード生成においてますます重要な役割を果たす。
EffiCoderを導入し、高品質なデータセット上でLLMを微調整することで、両方の面を改善する。
EffiCoderは、AI駆動のコード生成を進めるためのスケーラブルで効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-14T07:05:51Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Contrastive Decoding Improves Reasoning in Large Language Models [55.16503283583076]
コントラストデコーディングは,様々な推論タスクにおいて,グリージーデコーディングよりもアウト・オブ・ボックスの大幅な改善を実現することを示す。
本稿では,LLaMA-65BがHellaSwag Commonsense reasoning benchmark上でLLaMA 2, GPT-3.5, PaLM 2-Lより優れていることを示す。
論文 参考訳(メタデータ) (2023-09-17T00:29:32Z) - NAPG: Non-Autoregressive Program Generation for Hybrid Tabular-Textual
Question Answering [52.10214317661547]
現在の数値推論法はプログラムシーケンスを自己回帰的にデコードする。
プログラム生成の精度は、デコードステップがエラー伝搬によって展開されるにつれて急激に低下する。
本稿では,非自己回帰型プログラム生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-07T11:25:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。