Fugu-MT 論文翻訳(概要): Generalization or Memorization: Data Contamination and Trustworthy Evaluation for Large Language Models

論文の概要: Generalization or Memorization: Data Contamination and Trustworthy Evaluation for Large Language Models

arxiv url: http://arxiv.org/abs/2402.15938v1
Date: Sat, 24 Feb 2024 23:54:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 16:09:27.810294
Title: Generalization or Memorization: Data Contamination and Trustworthy Evaluation for Large Language Models
Title（参考訳）: 一般化・記憶:大規模言語モデルにおけるデータ汚染と信頼できる評価
Authors: Yihong Dong, Xue Jiang, Huanyu Liu, Zhi Jin, and Ge Li
Abstract要約: CDD は LLM の出力分布による汚染検出の略である。評価におけるデータ汚染の影響を軽減するため、TED:出力分布による信頼に値する評価も提示する。
参考スコア（独自算出の注目度）: 34.60647883219719
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent statements about the impressive capabilities of large language models (LLMs) are usually supported by evaluating on open-access benchmarks. Considering the vast size and wide-ranging sources of LLMs' training data, it could explicitly or implicitly include test data, leading to LLMs being more susceptible to data contamination. However, due to the opacity of training data, the black-box access of models, and the rapid growth of synthetic training data, detecting and mitigating data contamination for LLMs faces significant challenges. In this paper, we propose CDD, which stands for Contamination Detection via output Distribution for LLMs. CDD necessitates only the sampled texts to detect data contamination, by identifying the peakedness of LLM's output distribution. To mitigate the impact of data contamination in evaluation, we also present TED: Trustworthy Evaluation via output Distribution, based on the correction of LLM's output distribution. To facilitate this study, we introduce two benchmarks, i.e., DetCon and ComiEval, for data contamination detection and contamination mitigation evaluation tasks. Extensive experimental results show that CDD achieves the average relative improvements of 21.8\%-30.2\% over other contamination detection approaches in terms of Accuracy, F1 Score, and AUC metrics, and can effectively detect contamination caused by the variants of test data. TED significantly mitigates performance improvements up to 66.9\% attributed to data contamination across 24 settings and 21 contamination degrees. In real-world applications, we reveal that ChatGPT exhibits a high potential to suffer from data contamination on HumanEval benchmark.
Abstract（参考訳）: 大規模言語モデル(LLM)の印象的な機能に関する最近のステートメントは、通常、オープンアクセスベンチマークで評価される。 LLMのトレーニングデータの膨大なサイズと広範囲のソースを考えると、明示的にまたは暗黙的にテストデータを含めることができるため、LSMはデータ汚染の影響を受けやすい。しかし、トレーニングデータの不透明さ、モデルのブラックボックスアクセス、および合成トレーニングデータの急速な成長により、LLMのデータ汚染の検出と緩和は重大な課題に直面している。本稿では,LCMの出力分布による汚染検出を行うCDDを提案する。 CDDは、LLMの出力分布のピーク性を特定することによって、データの汚染を検出するためにサンプルテキストのみを必要とする。評価におけるデータ汚染の影響を軽減するため, LLMの出力分布の補正に基づいて, 出力分布による信頼に値する評価を行う。本研究では,データ汚染検出と汚染緩和評価タスクのための2つのベンチマーク,すなわちdetconとcomievalを導入する。広範な実験結果から,cddは他の汚染検出手法と比較して,精度,f1スコア,auc指標において平均21.8\%-30.2\%の改善を達成でき,試験データの変異による汚染を効果的に検出できることがわかった。 TEDは、データ汚染による最大66.9 %の性能改善を24の設定と21の汚染度で大幅に軽減している。実世界の応用において,ChatGPTはHumanEvalベンチマークでデータ汚染に悩む可能性が高いことが明らかになった。

関連論文リスト

Rethinking the effects of data contamination in Code Intelligence [15.99780798470139]
本稿では,コードインテリジェンスタスクにおけるきめ細かいデータ汚染について,系統的研究を行った。本研究は,汚染が必然的に性能過大評価につながるという従来の信念に異議を唱えるものである。
論文参考訳（メタデータ） (2025-06-03T12:15:44Z)
AntiLeak-Bench: Preventing Data Contamination by Automatically Constructing Benchmarks with Updated Real-World Knowledge [68.39683427262335]
既存の研究は、新たに収集されたデータが既存の知識を含む可能性があるため、汚染のない評価を保証することができない。本稿では,自動アンチリーチベンチマークフレームワークであるAntiLeak-Benchを提案する。
論文参考訳（メタデータ） (2024-12-18T09:53:12Z)
Evaluation data contamination in LLMs: how do we measure it and (when) does it matter? [10.691754344782387]
どのサンプルを汚染されるべきか、それがベンチマークスコアに与える影響を正確に定義することは困難である。本稿では,ConTAMと呼ばれる新しい分析手法を提案する。汚染は最近のLCMリリースで報告されたよりもはるかに大きな効果を示し、異なるスケールで異なるモデルに利益をもたらす可能性がある。
論文参考訳（メタデータ） (2024-11-06T13:54:08Z)
Both Text and Images Leaked! A Systematic Analysis of Data Contamination in Multimodal LLM [53.05486269607166]
マルチモーダルな大言語モデル (MLLM) はベンチマーク間で大幅に性能が向上した。マルチモーダルデータ複雑性とマルチフェーズトレーニングのため,既存のLLM検出手法はMLLMでは不十分である。我々は分析フレームワークMM-Detectを用いてマルチモーダルデータの汚染を分析する。
論文参考訳（メタデータ） (2024-11-06T10:44:15Z)
CAP: Data Contamination Detection via Consistency Amplification [20.135264289668463]
大規模言語モデル(LLM)は広く使われているが、データの汚染に関する懸念は信頼性に疑問を呈している。本稿では,データセットの漏洩量を測定するためのPCR(Performance Consistency Ratio)を導入した新しいフレームワークである Consistency Amplification-based Data Contamination Detection (CAP)を提案する。 CAPは様々なベンチマークに適用でき、ホワイトボックスモデルとブラックボックスモデルの両方で動作する。
論文参考訳（メタデータ） (2024-10-19T06:33:33Z)
DICE: Detecting In-distribution Contamination in LLM's Fine-tuning Phase for Math Reasoning [40.57095898475888]
大規模言語モデル(LLM)の性能向上に寄与する分布内汚染本研究では, LLMの内部状態を利用して汚染を検出・検出する新しい手法であるDICEを提案する。実験により、DICEは様々なLSMおよび数学推論データセットにまたがる分布内汚染を検出するのに高い精度を示している。
論文参考訳（メタデータ） (2024-06-06T15:55:53Z)
How Much are Large Language Models Contaminated? A Comprehensive Survey and the LLMSanitize Library [68.10605098856087]
大規模言語モデル(LLM)は、ビジネスアプリケーションやAIの資金調達でますます利用されている。 LLMの性能は、データへの以前の露出のために、少なくとも部分的には高性能である可能性があるため、もはや信頼性が低い可能性がある。我々はLLMSanitizeというオープンソースのPythonライブラリをリリースし、主要な汚染検知アルゴリズムを実装した。
論文参考訳（メタデータ） (2024-03-31T14:32:02Z)
KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。 5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文参考訳（メタデータ） (2024-02-23T01:30:39Z)
Investigating Data Contamination for Pre-training Language Models [46.335755305642564]
我々は,一連のGPT-2モデルを事前学習することで,事前学習段階におけるデータ汚染の影響について検討する。評価データから,テキスト汚染 (テキスト, 評価サンプルの入力テキスト) と接地トラス汚染 (テキスト, 入力に要求されるプロンプトと所望の出力) の両方の効果を強調した。
論文参考訳（メタデータ） (2024-01-11T17:24:49Z)
Interpretable Causal Inference for Analyzing Wearable, Sensor, and Distributional Data [62.56890808004615]
本研究では,信頼性とロバストな意思決定を確実にする,分散データ解析の解釈可能な手法を開発した。 ADD MALTSの有用性について,糖尿病リスク軽減のための連続グルコースモニターの有効性について検討した。
論文参考訳（メタデータ） (2023-12-17T00:42:42Z)
Rethinking Benchmark and Contamination for Language Models with Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文参考訳（メタデータ） (2023-11-08T17:35:20Z)
Data Contamination Through the Lens of Time [21.933771085956426]
大規模言語モデル(LLM)は一般に利用可能なベンチマークを評価することでしばしばサポートされる。このプラクティスは、データ汚染の懸念、すなわち、トレーニングデータに明示的にまたは暗黙的に含まれている例を評価することを提起する。 GPTモデルにおけるトレーニングカットオフの自然実験を用いて, LLMにおけるデータ汚染の経時的解析を行った。
論文参考訳（メタデータ） (2023-10-16T17:51:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。