論文の概要: An Open Source Data Contamination Report for Large Language Models
- arxiv url: http://arxiv.org/abs/2310.17589v2
- Date: Mon, 18 Dec 2023 11:34:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 22:24:54.463212
- Title: An Open Source Data Contamination Report for Large Language Models
- Title(参考訳): 大規模言語モデルのためのオープンソースデータ汚染レポート
- Authors: Yucheng Li
- Abstract要約: 本稿では,Llamaシリーズモデルに対するオープンソースのデータ汚染レポートを提案する。
1%から8.7%までの様々な汚染レベルがベンチマークで確認されている。
ラマモデルは汚染されたサブセットに対してクリーンサブセットよりも5%以上精度が高い。
- 参考スコア(独自算出の注目度): 2.4173424114751114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data contamination in language model evaluation is increasingly prevalent as
the popularity of large language models. It allows models to "cheat" via
memorisation instead of displaying true capabilities. Therefore, contamination
analysis has became an crucial part of reliable model evaluation to validate
results. However, existing contamination analysis is usually conducted
internally by LLM developers and often lacks transparency and completeness.
This paper present an open source data contamination reports for the Llama
series models. We analyse six popular multi-choice QA benchmarks and quantify
their overlapping with the training set of Llama. Various levels of
contamination ranging from 1\% to 8.7\% are found across benchmarks. Our
comparison also reveals that Llama models can gain over 5\% higher accuracy on
contaminated subsets versus clean subsets. Data and code are available at:
https://github.com/liyucheng09/Contamination_Detector.
- Abstract(参考訳): 言語モデル評価におけるデータ汚染は、大規模言語モデルの人気が高まりつつある。
モデルが本当の能力を示すのではなく、記憶を通じて“焼く”ことができるのです。
そのため, 汚染分析は信頼性モデル評価において重要な要素となり, 評価結果が得られた。
しかしながら、既存の汚染分析は通常、LLM開発者によって内部で行われ、透明性と完全性に欠けることが多い。
本稿では,llamaシリーズモデルのオープンソースデータ汚染レポートについて述べる。
6つの一般的なマルチチョイスqaベンチマークを分析し,llamaのトレーニングセットとの重なりを定量化する。
1\%から8.7\%までの様々な汚染レベルがベンチマークで見られる。
また,Llamaモデルでは汚染されたサブセットに対して,クリーンサブセットに対して5倍以上の精度が得られることを示した。
データとコードは、https://github.com/liyucheng09/contamination_detectorで入手できる。
関連論文リスト
- LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - PaCoST: Paired Confidence Significance Testing for Benchmark Contamination Detection in Large Language Models [41.772263447213234]
大規模言語モデル(LLM)は膨大な量のデータに基づいて訓練されることが知られており、意図的または故意によく使われるベンチマークのデータを含むことがある。
このインクルージョンは、モデルリーダーボードの不正な高いスコアにつながるが、現実のアプリケーションではパフォーマンスに失望する。
LLMのベンチマーク汚染を効果的に検出するPaired Confidence Significance TestingであるPaCoSTを紹介する。
論文 参考訳(メタデータ) (2024-06-26T13:12:40Z) - ConStat: Performance-Based Contamination Detection in Large Language Models [7.305342793164905]
コンスタット(ConStat)は、参照モデルの集合に対する一次ベンチマークと参照ベンチマークのパフォーマンスを比較することで、汚染を確実に検出し、定量化する統計手法である。
多様なモデルアーキテクチャ,ベンチマーク,汚染シナリオの広範な評価において,ConStatの有効性を実証する。
論文 参考訳(メタデータ) (2024-05-25T15:36:37Z) - How Much are Large Language Models Contaminated? A Comprehensive Survey and the LLMSanitize Library [68.10605098856087]
大規模言語モデル(LLM)は、ビジネスアプリケーションやAIの資金調達でますます利用されている。
LLMの性能は、データへの以前の露出のために、少なくとも部分的には高性能である可能性があるため、もはや信頼性が低い可能性がある。
我々はLLMSanitizeというオープンソースのPythonライブラリをリリースし、主要な汚染検知アルゴリズムを実装した。
論文 参考訳(メタデータ) (2024-03-31T14:32:02Z) - Evading Data Contamination Detection for Language Models is (too) Easy [9.024665800235855]
大規模な言語モデルは、必然的に公開ベンチマークによる汚染につながる可能性がある。
本稿では,モデルプロバイダと汚染検出手法の両方の分類を提案する。
これは、私たちがEALで活用している既存のメソッドの脆弱性を明らかにします。
論文 参考訳(メタデータ) (2024-02-05T09:10:32Z) - Small Effect Sizes in Malware Detection? Make Harder Train/Test Splits! [51.668411293817464]
業界関係者は、モデルが数億台のマシンにデプロイされているため、マルウェア検出精度の小さな改善に気を配っている。
学術研究はしばしば1万のサンプルの順序で公開データセットに制限される。
利用可能なサンプルのプールから難易度ベンチマークを生成するためのアプローチを考案する。
論文 参考訳(メタデータ) (2023-12-25T21:25:55Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - Estimating Contamination via Perplexity: Quantifying Memorisation in
Language Model Evaluation [2.4173424114751114]
本稿では,全トレーニングセットにアクセスせずに汚染を定量化する新しい手法を提案する。
我々の分析は、一般的な読み理解、要約ベンチマークにおいて、最近の基礎モデルの顕著な記憶の証拠を提供する一方で、複数の選択が汚染されていないように見える。
論文 参考訳(メタデータ) (2023-09-19T15:02:58Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - CHEER: Rich Model Helps Poor Model via Knowledge Infusion [69.23072792708263]
我々は、そのようなリッチなモデルを伝達可能な表現に簡潔に要約できる知識注入フレームワークCHEERを開発した。
実験の結果、CHEERは複数の生理的データセットのマクロF1スコアにおいて、ベースラインを5.60%から46.80%上回った。
論文 参考訳(メタデータ) (2020-05-21T21:44:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。