論文の概要: Data Contamination Calibration for Black-box LLMs
- arxiv url: http://arxiv.org/abs/2405.11930v2
- Date: Mon, 3 Jun 2024 05:21:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 14:29:15.585728
- Title: Data Contamination Calibration for Black-box LLMs
- Title(参考訳): ブラックボックスLCMのデータ汚染校正
- Authors: Wentao Ye, Jiaqi Hu, Liyao Li, Haobo Wang, Gang Chen, Junbo Zhao,
- Abstract要約: 本稿では, 汚染データを検出するために, ポーラライズ・オーグメント (PAC) という総合的手法と, 新たにリリースされたデータセットを提案する。
広範な実験により、PACはデータ汚染検出に向けて、既存の手法を少なくとも4.5%上回っている。
実世界のシナリオにおける我々の応用は、汚染と関連する問題の顕著な存在を強調している。
- 参考スコア(独自算出の注目度): 17.663721989595434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancements of Large Language Models (LLMs) tightly associate with the expansion of the training data size. However, the unchecked ultra-large-scale training sets introduce a series of potential risks like data contamination, i.e. the benchmark data is used for training. In this work, we propose a holistic method named Polarized Augment Calibration (PAC) along with a new to-be-released dataset to detect the contaminated data and diminish the contamination effect. PAC extends the popular MIA (Membership Inference Attack) -- from machine learning community -- by forming a more global target at detecting training data to Clarify invisible training data. As a pioneering work, PAC is very much plug-and-play that can be integrated with most (if not all) current white- and black-box LLMs. By extensive experiments, PAC outperforms existing methods by at least 4.5%, towards data contamination detection on more 4 dataset formats, with more than 10 base LLMs. Besides, our application in real-world scenarios highlights the prominent presence of contamination and related issues.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩は、トレーニングデータサイズの拡大と密接に関連している。
しかし、未確認の超大規模トレーニングセットは、データ汚染のような潜在的なリスク、すなわち、ベンチマークデータがトレーニングに使用される一連のリスクをもたらす。
本研究では, ポーラライズ・オーグメント・キャリブレーション(PAC, Polarized Augment Calibration) と題して, 汚染データを検出し, 汚染効果を低減させる新たなデータセットを提案する。
PACは、マシンラーニングコミュニティから人気のMIA(Membership Inference Attack)を拡張し、トレーニングデータの検出においてよりグローバルなターゲットを形成して、目に見えないトレーニングデータを明確にする。
先駆的な業績として、PACは非常に多くのプラグアンドプレイがあり、現在のほとんどの(すべてではないとしても)ホワイトボックスとブラックボックスのLCMと統合できる。
大規模な実験により、PACは既存の手法を少なくとも4.5%上回り、4つのデータセットフォーマットでデータ汚染を検出する。
さらに、実世界のシナリオにおける我々の応用は、汚染と関連する問題の顕著な存在を強調している。
関連論文リスト
- CAP: Data Contamination Detection via Consistency Amplification [20.135264289668463]
大規模言語モデル(LLM)は広く使われているが、データの汚染に関する懸念は信頼性に疑問を呈している。
本稿では,データセットの漏洩量を測定するためのPCR(Performance Consistency Ratio)を導入した新しいフレームワークである Consistency Amplification-based Data Contamination Detection (CAP)を提案する。
CAPは様々なベンチマークに適用でき、ホワイトボックスモデルとブラックボックスモデルの両方で動作する。
論文 参考訳(メタデータ) (2024-10-19T06:33:33Z) - Is C4 Dataset Optimal for Pruning? An Investigation of Calibration Data for LLM Pruning [56.795078085234195]
LLMプルーニングのアプローチは、プルーニングスコアを計算するためのキャリブレーションデータとして、C4データセットに依存している。
本研究では, LLMプルーニングにおけるキャリブレーションデータの選択を, 幅広いデータセットで評価する。
私たちの結果は、微妙でしばしば予期せぬ発見もいくつか見つけました。
論文 参考訳(メタデータ) (2024-10-09T22:00:19Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - How Much are Large Language Models Contaminated? A Comprehensive Survey and the LLMSanitize Library [68.10605098856087]
大規模言語モデル(LLM)は、ビジネスアプリケーションやAIの資金調達でますます利用されている。
LLMの性能は、データへの以前の露出のために、少なくとも部分的には高性能である可能性があるため、もはや信頼性が低い可能性がある。
我々はLLMSanitizeというオープンソースのPythonライブラリをリリースし、主要な汚染検知アルゴリズムを実装した。
論文 参考訳(メタデータ) (2024-03-31T14:32:02Z) - Generalization or Memorization: Data Contamination and Trustworthy Evaluation for Large Language Models [42.958880063727996]
CDD は LLM の出力分布による汚染検出の略である。
評価におけるデータ汚染の影響を軽減するため、TED:出力分布による信頼に値する評価も提示する。
論文 参考訳(メタデータ) (2024-02-24T23:54:41Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - Data Contamination Through the Lens of Time [21.933771085956426]
大規模言語モデル(LLM)は一般に利用可能なベンチマークを評価することでしばしばサポートされる。
このプラクティスは、データ汚染の懸念、すなわち、トレーニングデータに明示的にまたは暗黙的に含まれている例を評価することを提起する。
GPTモデルにおけるトレーニングカットオフの自然実験を用いて, LLMにおけるデータ汚染の経時的解析を行った。
論文 参考訳(メタデータ) (2023-10-16T17:51:29Z) - Inertial Hallucinations -- When Wearable Inertial Devices Start Seeing
Things [82.15959827765325]
環境支援型生活(AAL)のためのマルチモーダルセンサフュージョンの新しいアプローチを提案する。
我々は、標準マルチモーダルアプローチの2つの大きな欠点、限られた範囲のカバレッジ、信頼性の低下に対処する。
我々の新しいフレームワークは、三重項学習によるモダリティ幻覚の概念を融合させ、異なるモダリティを持つモデルを訓練し、推論時に欠落したセンサーに対処する。
論文 参考訳(メタデータ) (2022-07-14T10:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。