論文の概要: Towards Data Contamination Detection for Modern Large Language Models: Limitations, Inconsistencies, and Oracle Challenges
- arxiv url: http://arxiv.org/abs/2409.09927v1
- Date: Mon, 16 Sep 2024 02:04:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 16:50:37.063561
- Title: Towards Data Contamination Detection for Modern Large Language Models: Limitations, Inconsistencies, and Oracle Challenges
- Title(参考訳): 最新の大規模言語モデルのデータ汚染検出に向けて - 制限,不整合,Oracleの課題
- Authors: Vinay Samuel, Yue Zhou, Henry Peng Zou,
- Abstract要約: 我々は,8つの挑戦的データセットにまたがる4つの最先端LCMを用いた5つの汚染検出手法を評価する。
解析の結果,現在の手法は仮定や応用に非自明な制約があることが明らかとなった。
- 参考スコア(独自算出の注目度): 3.0455427910850785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models achieve increasingly impressive results, questions arise about whether such performance is from generalizability or mere data memorization. Thus, numerous data contamination detection methods have been proposed. However, these approaches are often validated with traditional benchmarks and early-stage LLMs, leaving uncertainty about their effectiveness when evaluating state-of-the-art LLMs on the contamination of more challenging benchmarks. To address this gap and provide a dual investigation of SOTA LLM contamination status and detection method robustness, we evaluate five contamination detection approaches with four state-of-the-art LLMs across eight challenging datasets often used in modern LLM evaluation. Our analysis reveals that (1) Current methods have non-trivial limitations in their assumptions and practical applications; (2) Notable difficulties exist in detecting contamination introduced during instruction fine-tuning with answer augmentation; and (3) Limited consistencies between SOTA contamination detection techniques. These findings highlight the complexity of contamination detection in advanced LLMs and the urgent need for further research on robust and generalizable contamination evaluation. Our code is available at https://github.com/vsamuel2003/data-contamination.
- Abstract(参考訳): 大規模言語モデルがますます印象的な結果を得るにつれて、そのようなパフォーマンスが一般化可能か単なるデータ記憶からかという疑問が生じる。
そこで,多くのデータ汚染検出手法が提案されている。
しかしながら、これらのアプローチは従来のベンチマークや早期のLSMで検証されることも多く、より困難なベンチマークの汚染について最先端のLSMを評価する際の有効性について不確実性を残している。
このギャップに対処し、SOTA LLM汚染状況と検出方法の堅牢性を両立させるため、現代のLLM評価によく用いられる8つの挑戦データセットに対して、4つの最先端LLMを用いた5つの汚染検出手法を評価した。
分析の結果,(1) 現状の手法は, 前提条件や実用条件において非自明な制限を負うこと,(2) 回答の増大による微調整時に発生する汚染の検出が困難であること,(3) SOTA 汚染検出技術間の限定的な相違があること,などが判明した。
これらの知見は, 先進LLMにおける汚染検出の複雑さと, 堅牢で汎用的な汚染評価のさらなる研究の必要性を浮き彫りにしている。
私たちのコードはhttps://github.com/vsamuel2003/data-contamination.comで利用可能です。
関連論文リスト
- Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination [18.586654412992168]
MLLM(Multimodal large language model)は、様々なマルチモーダルベンチマークにおいて優れた性能を示す。
トレーニング中のデータ汚染の問題は、パフォーマンス評価と比較の課題を生み出します。
MLLM向けに設計されたマルチモーダルデータ汚染検出フレームワークMM-Detectを導入する。
論文 参考訳(メタデータ) (2024-11-06T10:44:15Z) - CAP: Data Contamination Detection via Consistency Amplification [20.135264289668463]
大規模言語モデル(LLM)は広く使われているが、データの汚染に関する懸念は信頼性に疑問を呈している。
本稿では,データセットの漏洩量を測定するためのPCR(Performance Consistency Ratio)を導入した新しいフレームワークである Consistency Amplification-based Data Contamination Detection (CAP)を提案する。
CAPは様々なベンチマークに適用でき、ホワイトボックスモデルとブラックボックスモデルの両方で動作する。
論文 参考訳(メタデータ) (2024-10-19T06:33:33Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Anomaly Detection of Tabular Data Using LLMs [54.470648484612866]
我々は,事前訓練された大規模言語モデル (LLM) がゼロショットバッチレベルの異常検出器であることを示す。
本稿では,実異常検出におけるLCMの潜在性を明らかにするために,エンドツーエンドの微調整手法を提案する。
論文 参考訳(メタデータ) (2024-06-24T04:17:03Z) - How Much are Large Language Models Contaminated? A Comprehensive Survey and the LLMSanitize Library [68.10605098856087]
大規模言語モデル(LLM)は、ビジネスアプリケーションやAIの資金調達でますます利用されている。
LLMの性能は、データへの以前の露出のために、少なくとも部分的には高性能である可能性があるため、もはや信頼性が低い可能性がある。
我々はLLMSanitizeというオープンソースのPythonライブラリをリリースし、主要な汚染検知アルゴリズムを実装した。
論文 参考訳(メタデータ) (2024-03-31T14:32:02Z) - Generalization or Memorization: Data Contamination and Trustworthy Evaluation for Large Language Models [42.958880063727996]
CDD は LLM の出力分布による汚染検出の略である。
評価におけるデータ汚染の影響を軽減するため、TED:出力分布による信頼に値する評価も提示する。
論文 参考訳(メタデータ) (2024-02-24T23:54:41Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。