論文の概要: Rethinking the effects of data contamination in Code Intelligence
- arxiv url: http://arxiv.org/abs/2506.02791v1
- Date: Tue, 03 Jun 2025 12:15:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.619259
- Title: Rethinking the effects of data contamination in Code Intelligence
- Title(参考訳): コードインテリジェンスにおけるデータ汚染の影響の再考
- Authors: Zhen Yang, Hongyi Lin, Yifan He, Jie Xu, Zeyu Sun, Shuo Liu, Pengpeng Wang, Zhongxing Yu, Qingyuan Liang,
- Abstract要約: 本稿では,コードインテリジェンスタスクにおけるきめ細かいデータ汚染について,系統的研究を行った。
本研究は,汚染が必然的に性能過大評価につながるという従来の信念に異議を唱えるものである。
- 参考スコア(独自算出の注目度): 15.99780798470139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, code intelligence has gained increasing importance in the field of automated software engineering. Meanwhile, the widespread adoption of Pretrained Language Models (PLMs) and Large Language Models (LLMs) has raised concerns regarding data contamination and its potential impact on model performance evaluation. This paper presents a systematic empirical study to investigate the fine-grained data contamination on code intelligence tasks. Our study involves diverse representative PLMs, namely RoBERTa and GPT-2, and LLMs, namely LLaMA and StarCoder, covering three major tasks: code translation, code generation, and code summarization. We categorize contamination scenarios into four types according to the code intelligence practice, namely input-only, output-only, unpaired, and paired contamination settings, and construct corresponding experimental and control groups for exploration. Experimental results show that, under the pre-training, fine-tuning, and inference paradigm adopted by PLMs, even deliberately injecting paired contamination does not lead to significant performance overestimation. But direct inference or small-scale fine-tuning uncovers the contamination effects. In contrast, LLMs with pre-training and inference paradigm are significantly affected by the paired contamination. Apart from the above, other contamination scenarios have no impact on both PLMs and LLMs. Our findings challenge the conventional belief that contamination inevitably leads to performance overestimation, providing new insights into the evaluation and deployment of code intelligence models.
- Abstract(参考訳): 近年、コードインテリジェンスは、自動化ソフトウェア工学の分野でますます重要になっている。
一方、PLM(Pretrained Language Models)やLLM(Large Language Models)が広く採用されていることから、データ汚染とモデル性能評価に対する潜在的な影響が懸念されている。
本稿では,コードインテリジェンスタスクにおけるきめ細かいデータ汚染について,系統的研究を行った。
我々の研究は様々な代表的PLM(RoBERTa, GPT-2, LLM, LLaMA, StarCoder)と、コード翻訳、コード生成、コード要約の3つの主要なタスクをカバーしている。
我々は,コードインテリジェンス(コードインテリジェンス)の実践,すなわち,入力のみ,出力のみ,ペアなし,ペア化された汚染設定に基づいて,汚染シナリオを4つのタイプに分類し,対応する実験および制御グループを構築した。
実験結果から, PLMの事前学習, 微調整, 推論のパラダイムの下では, ペア汚染を意図的に注入しても, 性能過大評価には至らないことが明らかとなった。
しかし、直接推測や小さな微調整は汚染効果を明らかにする。
対照的に、事前学習と推論のパラダイムを持つLCMは、ペアの汚染によって著しく影響を受ける。
上記とは別に、他の汚染シナリオはPLMとLSMの両方に影響を与えない。
我々は,汚染が必然的に性能過大評価につながるという従来の信念に挑戦し,コードインテリジェンスモデルの評価と展開に関する新たな洞察を提供する。
関連論文リスト
- Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - CAP: Data Contamination Detection via Consistency Amplification [20.135264289668463]
大規模言語モデル(LLM)は広く使われているが、データの汚染に関する懸念は信頼性に疑問を呈している。
本稿では,データセットの漏洩量を測定するためのPCR(Performance Consistency Ratio)を導入した新しいフレームワークである Consistency Amplification-based Data Contamination Detection (CAP)を提案する。
CAPは様々なベンチマークに適用でき、ホワイトボックスモデルとブラックボックスモデルの両方で動作する。
論文 参考訳(メタデータ) (2024-10-19T06:33:33Z) - A Taxonomy for Data Contamination in Large Language Models [12.643103231497813]
増大する懸念は、事前学習コーパスに評価データセットを含めることができるデータ汚染である。
このようなデータを検知し、除去するプロセスである汚染除去は、潜在的な解決策である。
下流タスクにおける言語モデルの性能に異なる種類の汚染がどのような影響を及ぼすかは、完全には理解されていない。
論文 参考訳(メタデータ) (2024-07-11T17:50:34Z) - A Comprehensive Survey of Contamination Detection Methods in Large Language Models [68.10605098856087]
近年のLarge Language Models(LLM)の台頭に伴い、多くの新しい機会が生まれつつありますが、新たな課題もあります。
LLMの性能は、データへの以前の露出のために、少なくとも部分的には高性能である可能性があるため、もはや信頼性が低い可能性がある。
この制限は、NLPの分野での実際の能力向上を阻害するが、汚染を効率的に検出する方法が不足している。
論文 参考訳(メタデータ) (2024-03-31T14:32:02Z) - Generalization or Memorization: Data Contamination and Trustworthy Evaluation for Large Language Models [42.958880063727996]
CDD は LLM の出力分布による汚染検出の略である。
評価におけるデータ汚染の影響を軽減するため、TED:出力分布による信頼に値する評価も提示する。
論文 参考訳(メタデータ) (2024-02-24T23:54:41Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Investigating Data Contamination for Pre-training Language Models [46.335755305642564]
我々は,一連のGPT-2モデルを事前学習することで,事前学習段階におけるデータ汚染の影響について検討する。
評価データから,テキスト汚染 (テキスト, 評価サンプルの入力テキスト) と接地トラス汚染 (テキスト, 入力に要求されるプロンプトと所望の出力) の両方の効果を強調した。
論文 参考訳(メタデータ) (2024-01-11T17:24:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。