Fugu-MT 論文翻訳(概要): Concerned with Data Contamination? Assessing Countermeasures in Code Language Model

論文の概要: Concerned with Data Contamination? Assessing Countermeasures in Code Language Model

arxiv url: http://arxiv.org/abs/2403.16898v2
Date: Thu, 28 Mar 2024 05:00:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-29 10:59:24.951439
Title: Concerned with Data Contamination? Assessing Countermeasures in Code Language Model
Title（参考訳）: データ汚染に関する考察 : コード言語モデルにおける対策の評価
Authors: Jialun Cao, Wuqi Zhang, Shing-Chi Cheung,
Abstract要約: SEタスクのコード言語モデル(CLM)の機能を活用するために、さまざまなテクニックが提案されている。データ汚染の脅威を軽減するために、さまざまな対策が提案されている。汚染データと浄化データに対するCLMの性能差を調べた結果,これらの対策の効果について検討した。
参考スコア（独自算出の注目度）: 8.81329299090667
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Various techniques have been proposed to leverage the capabilities of code language models (CLMs) for SE tasks. While these techniques typically evaluate their effectiveness using publicly available datasets, the evaluation can be subject to data contamination threats where the evaluation datasets have already been used to train the concerned CLMs. This can significantly affect the reliability of the evaluation. Different countermeasures have been suggested to mitigate the data contamination threat. Countermeasures include using more recent data, curating new data, and refactoring existing data are introduced, yet it is unclear whether these countermeasures could really mitigate data contamination threats to model evaluation. To fill the gap, we systematically study to quantify the impacts of these countermeasures on CLMs' performance. To facilitate the study, we collected over 2 million Python functions with timestamps ranging from January 1st, 2018, to December 31st, 2023. The data created before the models' cut-off date are considered "contaminated data", while the data where the countermeasures are taken are regarded as "cleansed data". We study the impact of these countermeasures by investigating the difference in CLMs' performance on contaminated and cleansed data derived from different countermeasures. Our experiments yield several interesting observations. For instance, CLMs do not necessarily perform worse on data after the models' cut-off date; on the contrary, they sometimes perform better. In addition, refactoring did not always result in decreased performance; it could lead to improvements instead. Furthermore, existing metrics such as perplexity cannot distinguish contaminated/cleansed data. We hope that the results and observations could help deepen the understanding of CLMs' capabilities and inform the community about data contamination.
Abstract（参考訳）: SEタスクのコード言語モデル(CLM)の機能を活用するために、さまざまなテクニックが提案されている。これらの手法は一般に一般に公開されているデータセットを用いて有効性を評価するが、評価データセットが既に関連するCLMのトレーニングに使用されているデータ汚染脅威に該当する可能性がある。これは評価の信頼性に大きな影響を与える可能性がある。データ汚染の脅威を軽減するために、さまざまな対策が提案されている。対策としては、最近のデータの使用、新しいデータのキュレーション、既存のデータのリファクタリングなどがあるが、これらの対策が実際にデータ汚染の脅威を軽減し、モデル評価を行うことができるかどうかは不明だ。このギャップを埋めるために,これらの対策がCLMの性能に与える影響を定量的に研究する。調査を容易にするため、2018年1月1日から2023年12月31日までのタイムスタンプで200万以上のPython関数を収集しました。モデルのカットオフ日以前に作成されたデータは「汚染データ」とみなし、対策が取られるデータは「クリーン化データ」とみなす。各種対策から得られた汚染・浄化データに対するCLMの性能差を調べた結果,これらの対策の効果について検討した。我々の実験はいくつかの興味深い観察結果をもたらす。例えば、CLMは、モデルが切り離された後にデータに悪影響を及ぼすとは限らない。さらに、リファクタリングが必ずしもパフォーマンスを低下させた訳ではなく、代わりに改善につながった。さらに、パープレキシティのような既存のメトリクスは、汚染された/クレンジされたデータを区別できない。我々は、CLMの能力の理解を深め、データ汚染についてコミュニティに知らせる上で、結果と観察が役立つことを期待している。

関連論文リスト

Hey, That's My Data! Label-Only Dataset Inference in Large Language Models [63.35066172530291]
CatShiftはラベルのみのデータセット推論フレームワークである。 LLMは、新しいデータに晒されたとき、学習した知識を上書きする傾向にある。
論文参考訳（メタデータ） (2025-06-06T13:02:59Z)
Aligning Language Models with Observational Data: Opportunities and Risks from a Causal Perspective [0.0]
本研究では,観測データを用いた大規模言語モデルの微調整の課題と機会について検討する。観察結果が貴重な監視を提供する一方で、そのようなデータを直接微調整することで、素早い相関関係を学習できることが示される。報奨信号から既知の共同創設者の効果を明示的に除去する手法であるDeconfoundLMを提案する。
論文参考訳（メタデータ） (2025-05-30T18:44:09Z)
DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文参考訳（メタデータ） (2025-02-22T08:53:39Z)
A Survey on Data Contamination for Large Language Models [12.431575579432458]
大規模言語モデル(LLM)は、テキスト生成やコード合成など、様々な分野で大きな進歩を見せている。データ汚染による性能評価の信頼性は精査されている。
論文参考訳（メタデータ） (2025-02-20T10:23:27Z)
Navigating Data Corruption in Machine Learning: Balancing Quality, Quantity, and Imputation Strategies [8.770864706004472]
欠落や騒々しいデータを含むデータの破損は、現実世界の機械学習において重大な課題を生じさせる。本研究では,データ破損がモデル性能に与える影響について検討し,これらの効果を緩和するための戦略を探る。データセットサイズの増加は軽減されるが,データ破損の影響を完全に克服することはできない。
論文参考訳（メタデータ） (2024-12-24T09:04:06Z)
Does Data Contamination Detection Work (Well) for LLMs? A Survey and Evaluation on Detection Assumptions [20.51842378080194]
大規模言語モデル(LLM)は、様々なベンチマークで優れた性能を示し、汎用的なタスクソルバとしての可能性を示している。 LLMは典型的には大量のデータに基づいて訓練されるため、その評価において重要な関心事はデータ汚染である。データ汚染検出に関する50の論文を体系的にレビューし、基礎となる仮定を分類し、厳格に検証されたかどうかを評価する。
論文参考訳（メタデータ） (2024-10-24T17:58:22Z)
Fine-tuning can Help Detect Pretraining Data from Large Language Models [7.7209640786782385]
現在のメソッドでは、PerplexityやMin-k%といったスコアリング関数を設計することで、メンバと非メンバを区別している。本研究では,FSD(Fun-Tuned Score Deviation)と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2024-10-09T15:36:42Z)
Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models [79.65071553905021]
所望のデータセットの特徴を考慮したデータ生成手法であるデータアドバイザを提案する。 Data Advisorは生成されたデータの状態を監視し、現在のデータセットの弱点を特定し、データ生成の次のイテレーションをアドバイスする。
論文参考訳（メタデータ） (2024-10-07T17:59:58Z)
Rethinking Benchmark and Contamination for Language Models with Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文参考訳（メタデータ） (2023-11-08T17:35:20Z)
Data Contamination Through the Lens of Time [21.933771085956426]
大規模言語モデル(LLM)は一般に利用可能なベンチマークを評価することでしばしばサポートされる。このプラクティスは、データ汚染の懸念、すなわち、トレーニングデータに明示的にまたは暗黙的に含まれている例を評価することを提起する。 GPTモデルにおけるトレーニングカットオフの自然実験を用いて, LLMにおけるデータ汚染の経時的解析を行った。
論文参考訳（メタデータ） (2023-10-16T17:51:29Z)
Stop Uploading Test Data in Plain Text: Practical Strategies for Mitigating Data Contamination by Evaluation Benchmarks [70.39633252935445]
データ汚染は、大規模な自動クロールコーパスで事前訓練されたモデルの台頭によって、普及し、課題となっている。クローズドモデルの場合、トレーニングデータはトレードシークレットになり、オープンモデルであっても汚染を検出するのは簡単ではない。 1)公開するテストデータを公開鍵で暗号化し,デリバティブ配信を許可する,(2)クローズドAPI保持者からの要求トレーニング排他的コントロールを許可する,(2)評価を拒否してテストデータを保護する,(3)インターネット上のソリューションで表示されるデータを避け,インターネット由来のWebページコンテキストを解放する,という3つの方法を提案する。
論文参考訳（メタデータ） (2023-05-17T12:23:38Z)
Conditional Feature Importance for Mixed Data [1.6114012813668934]
ノックオフサンプリングを用いた条件付き予測インパクト(CPI)フレームワークを開発した。提案するワークフローは,I型エラーを制御し,高い出力を達成し,他の条件FI測定結果と一致していることを示す。本研究は,混合データに対して,統計的に適切な,専門的な手法を開発することの必要性を強調した。
論文参考訳（メタデータ） (2022-10-06T16:52:38Z)
An Investigation of Smart Contract for Collaborative Machine Learning Model Training [3.5679973993372642]
協調機械学習(CML)はビッグデータ時代において様々な分野に浸透してきた。 MLモデルのトレーニングには大量の高品質なデータが必要であるため、データのプライバシに関する懸念を取り除く必要がある。ブロックチェーンに基づいて、スマートコントラクトはデータ保存とバリデーションの自動実行を可能にする。
論文参考訳（メタデータ） (2022-09-12T04:25:01Z)
Managing dataset shift by adversarial validation for credit scoring [5.560471251954645]
トレーニングデータの分布と実際に予測する必要があるデータとの矛盾は、モデルパフォーマンスの低下を引き起こす可能性がある。本稿では,クレジットスコアリングシナリオにおけるデータセットシフト問題を軽減するための,逆検証に基づく手法を提案する。
論文参考訳（メタデータ） (2021-12-19T07:07:15Z)
Continual Learning for Fake Audio Detection [62.54860236190694]
本論文では,連続学習に基づく手法である忘れずに偽物を検出することで,モデルに新たなスプーフィング攻撃をインクリメンタルに学習させる手法を提案する。 ASVspoof 2019データセットで実験が行われる。
論文参考訳（メタデータ） (2021-04-15T07:57:05Z)
Multi-Source Causal Inference Using Control Variates [81.57072928775509]
本稿では,複数のデータソースから因果効果を推定するアルゴリズムを提案する。理論的には、これはATE推定値の分散を減少させる。このフレームワークを結果選択バイアスの下で観測データからの推論に適用する。
論文参考訳（メタデータ） (2021-03-30T21:20:51Z)
Provably Efficient Causal Reinforcement Learning with Confounded Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-22T14:49:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。