論文の概要: Towards Data Contamination Detection for Modern Large Language Models: Limitations, Inconsistencies, and Oracle Challenges
- arxiv url: http://arxiv.org/abs/2409.09927v1
- Date: Mon, 16 Sep 2024 02:04:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 16:50:37.063561
- Title: Towards Data Contamination Detection for Modern Large Language Models: Limitations, Inconsistencies, and Oracle Challenges
- Title(参考訳): 最新の大規模言語モデルのデータ汚染検出に向けて - 制限,不整合,Oracleの課題
- Authors: Vinay Samuel, Yue Zhou, Henry Peng Zou,
- Abstract要約: 我々は,8つの挑戦的データセットにまたがる4つの最先端LCMを用いた5つの汚染検出手法を評価する。
解析の結果,現在の手法は仮定や応用に非自明な制約があることが明らかとなった。
- 参考スコア(独自算出の注目度): 3.0455427910850785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models achieve increasingly impressive results, questions arise about whether such performance is from generalizability or mere data memorization. Thus, numerous data contamination detection methods have been proposed. However, these approaches are often validated with traditional benchmarks and early-stage LLMs, leaving uncertainty about their effectiveness when evaluating state-of-the-art LLMs on the contamination of more challenging benchmarks. To address this gap and provide a dual investigation of SOTA LLM contamination status and detection method robustness, we evaluate five contamination detection approaches with four state-of-the-art LLMs across eight challenging datasets often used in modern LLM evaluation. Our analysis reveals that (1) Current methods have non-trivial limitations in their assumptions and practical applications; (2) Notable difficulties exist in detecting contamination introduced during instruction fine-tuning with answer augmentation; and (3) Limited consistencies between SOTA contamination detection techniques. These findings highlight the complexity of contamination detection in advanced LLMs and the urgent need for further research on robust and generalizable contamination evaluation. Our code is available at https://github.com/vsamuel2003/data-contamination.
- Abstract(参考訳): 大規模言語モデルがますます印象的な結果を得るにつれて、そのようなパフォーマンスが一般化可能か単なるデータ記憶からかという疑問が生じる。
そこで,多くのデータ汚染検出手法が提案されている。
しかしながら、これらのアプローチは従来のベンチマークや早期のLSMで検証されることも多く、より困難なベンチマークの汚染について最先端のLSMを評価する際の有効性について不確実性を残している。
このギャップに対処し、SOTA LLM汚染状況と検出方法の堅牢性を両立させるため、現代のLLM評価によく用いられる8つの挑戦データセットに対して、4つの最先端LLMを用いた5つの汚染検出手法を評価した。
分析の結果,(1) 現状の手法は, 前提条件や実用条件において非自明な制限を負うこと,(2) 回答の増大による微調整時に発生する汚染の検出が困難であること,(3) SOTA 汚染検出技術間の限定的な相違があること,などが判明した。
これらの知見は, 先進LLMにおける汚染検出の複雑さと, 堅牢で汎用的な汚染評価のさらなる研究の必要性を浮き彫りにしている。
私たちのコードはhttps://github.com/vsamuel2003/data-contamination.comで利用可能です。
関連論文リスト
- A Survey on Data Contamination for Large Language Models [12.431575579432458]
大規模言語モデル(LLM)は、テキスト生成やコード合成など、様々な分野で大きな進歩を見せている。
データ汚染による性能評価の信頼性は精査されている。
論文 参考訳(メタデータ) (2025-02-20T10:23:27Z) - Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - AntiLeak-Bench: Preventing Data Contamination by Automatically Constructing Benchmarks with Updated Real-World Knowledge [68.39683427262335]
既存の研究は、新たに収集されたデータが既存の知識を含む可能性があるため、汚染のない評価を保証することができない。
本稿では,自動アンチリーチベンチマークフレームワークであるAntiLeak-Benchを提案する。
論文 参考訳(メタデータ) (2024-12-18T09:53:12Z) - Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination [18.586654412992168]
MLLM(Multimodal large language model)は、様々なマルチモーダルベンチマークにおいて優れた性能を示す。
トレーニング中のデータ汚染の問題は、パフォーマンス評価と比較の課題を生み出します。
MLLM向けに設計されたマルチモーダルデータ汚染検出フレームワークMM-Detectを導入する。
論文 参考訳(メタデータ) (2024-11-06T10:44:15Z) - CAP: Data Contamination Detection via Consistency Amplification [20.135264289668463]
大規模言語モデル(LLM)は広く使われているが、データの汚染に関する懸念は信頼性に疑問を呈している。
本稿では,データセットの漏洩量を測定するためのPCR(Performance Consistency Ratio)を導入した新しいフレームワークである Consistency Amplification-based Data Contamination Detection (CAP)を提案する。
CAPは様々なベンチマークに適用でき、ホワイトボックスモデルとブラックボックスモデルの両方で動作する。
論文 参考訳(メタデータ) (2024-10-19T06:33:33Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Anomaly Detection of Tabular Data Using LLMs [54.470648484612866]
我々は,事前訓練された大規模言語モデル (LLM) がゼロショットバッチレベルの異常検出器であることを示す。
本稿では,実異常検出におけるLCMの潜在性を明らかにするために,エンドツーエンドの微調整手法を提案する。
論文 参考訳(メタデータ) (2024-06-24T04:17:03Z) - How Much are Large Language Models Contaminated? A Comprehensive Survey and the LLMSanitize Library [68.10605098856087]
大規模言語モデル(LLM)は、ビジネスアプリケーションやAIの資金調達でますます利用されている。
LLMの性能は、データへの以前の露出のために、少なくとも部分的には高性能である可能性があるため、もはや信頼性が低い可能性がある。
我々はLLMSanitizeというオープンソースのPythonライブラリをリリースし、主要な汚染検知アルゴリズムを実装した。
論文 参考訳(メタデータ) (2024-03-31T14:32:02Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。