Fugu-MT 論文翻訳(概要): Rethinking the effects of data contamination in Code Intelligence

論文の概要: Rethinking the effects of data contamination in Code Intelligence

arxiv url: http://arxiv.org/abs/2506.02791v1
Date: Tue, 03 Jun 2025 12:15:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:35.619259
Title: Rethinking the effects of data contamination in Code Intelligence
Title（参考訳）: コードインテリジェンスにおけるデータ汚染の影響の再考
Authors: Zhen Yang, Hongyi Lin, Yifan He, Jie Xu, Zeyu Sun, Shuo Liu, Pengpeng Wang, Zhongxing Yu, Qingyuan Liang,
Abstract要約: 本稿では,コードインテリジェンスタスクにおけるきめ細かいデータ汚染について,系統的研究を行った。本研究は,汚染が必然的に性能過大評価につながるという従来の信念に異議を唱えるものである。
参考スコア（独自算出の注目度）: 15.99780798470139
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, code intelligence has gained increasing importance in the field of automated software engineering. Meanwhile, the widespread adoption of Pretrained Language Models (PLMs) and Large Language Models (LLMs) has raised concerns regarding data contamination and its potential impact on model performance evaluation. This paper presents a systematic empirical study to investigate the fine-grained data contamination on code intelligence tasks. Our study involves diverse representative PLMs, namely RoBERTa and GPT-2, and LLMs, namely LLaMA and StarCoder, covering three major tasks: code translation, code generation, and code summarization. We categorize contamination scenarios into four types according to the code intelligence practice, namely input-only, output-only, unpaired, and paired contamination settings, and construct corresponding experimental and control groups for exploration. Experimental results show that, under the pre-training, fine-tuning, and inference paradigm adopted by PLMs, even deliberately injecting paired contamination does not lead to significant performance overestimation. But direct inference or small-scale fine-tuning uncovers the contamination effects. In contrast, LLMs with pre-training and inference paradigm are significantly affected by the paired contamination. Apart from the above, other contamination scenarios have no impact on both PLMs and LLMs. Our findings challenge the conventional belief that contamination inevitably leads to performance overestimation, providing new insights into the evaluation and deployment of code intelligence models.
Abstract（参考訳）: 近年、コードインテリジェンスは、自動化ソフトウェア工学の分野でますます重要になっている。一方、PLM(Pretrained Language Models)やLLM(Large Language Models)が広く採用されていることから、データ汚染とモデル性能評価に対する潜在的な影響が懸念されている。本稿では,コードインテリジェンスタスクにおけるきめ細かいデータ汚染について,系統的研究を行った。我々の研究は様々な代表的PLM(RoBERTa, GPT-2, LLM, LLaMA, StarCoder)と、コード翻訳、コード生成、コード要約の3つの主要なタスクをカバーしている。我々は,コードインテリジェンス(コードインテリジェンス)の実践,すなわち,入力のみ,出力のみ,ペアなし,ペア化された汚染設定に基づいて,汚染シナリオを4つのタイプに分類し,対応する実験および制御グループを構築した。実験結果から, PLMの事前学習, 微調整, 推論のパラダイムの下では, ペア汚染を意図的に注入しても, 性能過大評価には至らないことが明らかとなった。しかし、直接推測や小さな微調整は汚染効果を明らかにする。対照的に、事前学習と推論のパラダイムを持つLCMは、ペアの汚染によって著しく影響を受ける。上記とは別に、他の汚染シナリオはPLMとLSMの両方に影響を与えない。我々は,汚染が必然的に性能過大評価につながるという従来の信念に挑戦し,コードインテリジェンスモデルの評価と展開に関する新たな洞察を提供する。

関連論文リスト

Revisiting Pre-trained Language Models for Vulnerability Detection [5.747350434960454]
プレトレーニング言語モデル(PLM)の急速な進歩は、様々なコード関連タスクに対して有望な結果を示した。しかし、現実世界の脆弱性を検出する効果は依然として重要な課題である。本稿では、より小さなコード固有のPLMと大規模PLMにまたがる17のPLMを広範囲に評価するRevisitVDを紹介する。
論文参考訳（メタデータ） (2025-07-22T17:58:49Z)
Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文参考訳（メタデータ） (2025-06-16T10:32:10Z)
Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文参考訳（メタデータ） (2025-02-03T17:13:03Z)
The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文参考訳（メタデータ） (2025-01-20T06:35:01Z)
CAP: Data Contamination Detection via Consistency Amplification [20.135264289668463]
大規模言語モデル(LLM)は広く使われているが、データの汚染に関する懸念は信頼性に疑問を呈している。本稿では,データセットの漏洩量を測定するためのPCR(Performance Consistency Ratio)を導入した新しいフレームワークである Consistency Amplification-based Data Contamination Detection (CAP)を提案する。 CAPは様々なベンチマークに適用でき、ホワイトボックスモデルとブラックボックスモデルの両方で動作する。
論文参考訳（メタデータ） (2024-10-19T06:33:33Z)
A Taxonomy for Data Contamination in Large Language Models [12.643103231497813]
増大する懸念は、事前学習コーパスに評価データセットを含めることができるデータ汚染である。このようなデータを検知し、除去するプロセスである汚染除去は、潜在的な解決策である。下流タスクにおける言語モデルの性能に異なる種類の汚染がどのような影響を及ぼすかは、完全には理解されていない。
論文参考訳（メタデータ） (2024-07-11T17:50:34Z)
A Comprehensive Survey of Contamination Detection Methods in Large Language Models [68.10605098856087]
近年のLarge Language Models(LLM)の台頭に伴い、多くの新しい機会が生まれつつありますが、新たな課題もあります。 LLMの性能は、データへの以前の露出のために、少なくとも部分的には高性能である可能性があるため、もはや信頼性が低い可能性がある。この制限は、NLPの分野での実際の能力向上を阻害するが、汚染を効率的に検出する方法が不足している。
論文参考訳（メタデータ） (2024-03-31T14:32:02Z)
Generalization or Memorization: Data Contamination and Trustworthy Evaluation for Large Language Models [42.958880063727996]
CDD は LLM の出力分布による汚染検出の略である。評価におけるデータ汚染の影響を軽減するため、TED:出力分布による信頼に値する評価も提示する。
論文参考訳（メタデータ） (2024-02-24T23:54:41Z)
KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。 5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文参考訳（メタデータ） (2024-02-23T01:30:39Z)
Investigating Data Contamination for Pre-training Language Models [46.335755305642564]
我々は,一連のGPT-2モデルを事前学習することで,事前学習段階におけるデータ汚染の影響について検討する。評価データから,テキスト汚染 (テキスト, 評価サンプルの入力テキスト) と接地トラス汚染 (テキスト, 入力に要求されるプロンプトと所望の出力) の両方の効果を強調した。
論文参考訳（メタデータ） (2024-01-11T17:24:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。