論文の概要: An Open Source Data Contamination Report for Llama Series Models
- arxiv url: http://arxiv.org/abs/2310.17589v1
- Date: Thu, 26 Oct 2023 17:11:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 18:48:55.431711
- Title: An Open Source Data Contamination Report for Llama Series Models
- Title(参考訳): llamaシリーズモデルのためのオープンソースデータ汚染レポート
- Authors: Yucheng Li
- Abstract要約: 本稿では,Llamaシリーズモデルに対するオープンソースのデータ汚染レポートを提案する。
1%から8.7%までの様々な汚染レベルがベンチマークで確認されている。
ラマモデルは汚染されたサブセットに対してクリーンサブセットよりも5%以上精度が高い。
- 参考スコア(独自算出の注目度): 2.4173424114751114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data contamination in language model evaluation is increasingly prevalent as
the popularity of large language models. It allows models to "cheat" via
memorisation instead of displaying true capabilities. Therefore, contamination
analysis has became an crucial part of reliable model evaluation to validate
results. However, existing contamination analysis is usually conducted
internally by LLM developers and often lacks transparency and completeness.
This paper present an open source data contamination reports for the Llama
series models. We analyse six popular multi-choice QA benchmarks and quantify
their overlapping with the training set of Llama. Various levels of
contamination ranging from 1\% to 8.7\% are found across benchmarks. Our
comparison also reveals that Llama models can gain over 5\% higher accuracy on
contaminated subsets versus clean subsets. Data and code are available at:
https://github.com/liyucheng09/Contamination_Detector.
- Abstract(参考訳): 言語モデル評価におけるデータ汚染は、大規模言語モデルの人気が高まりつつある。
モデルが本当の能力を示すのではなく、記憶を通じて“焼く”ことができるのです。
そのため, 汚染分析は信頼性モデル評価において重要な要素となり, 評価結果が得られた。
しかしながら、既存の汚染分析は通常、LLM開発者によって内部で行われ、透明性と完全性に欠けることが多い。
本稿では,llamaシリーズモデルのオープンソースデータ汚染レポートについて述べる。
6つの一般的なマルチチョイスqaベンチマークを分析し,llamaのトレーニングセットとの重なりを定量化する。
1\%から8.7\%までの様々な汚染レベルがベンチマークで見られる。
また,Llamaモデルでは汚染されたサブセットに対して,クリーンサブセットに対して5倍以上の精度が得られることを示した。
データとコードは、https://github.com/liyucheng09/contamination_detectorで入手できる。
関連論文リスト
- Evading Data Contamination Detection for Language Models is (too) Easy [9.024665800235855]
大規模な言語モデルは、必然的に公開ベンチマークによる汚染につながる可能性がある。
本稿では,モデルプロバイダと汚染検出手法の両方の分類を提案する。
これは、私たちがEALで活用している既存のメソッドの脆弱性を明らかにします。
論文 参考訳(メタデータ) (2024-02-05T09:10:32Z) - Small Effect Sizes in Malware Detection? Make Harder Train/Test Splits! [51.668411293817464]
業界関係者は、モデルが数億台のマシンにデプロイされているため、マルウェア検出精度の小さな改善に気を配っている。
学術研究はしばしば1万のサンプルの順序で公開データセットに制限される。
利用可能なサンプルのプールから難易度ベンチマークを生成するためのアプローチを考案する。
論文 参考訳(メタデータ) (2023-12-25T21:25:55Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - Proving Test Set Contamination in Black Box Language Models [20.576866080360247]
本研究では,事前学習データやモデルの重み付けを使わずに,言語モデルにおけるテストセット汚染の証明可能な保証を提供することが可能であることを示す。
我々のアプローチは、データ汚染がない場合、交換可能なベンチマークの全ての順序が等しくなるという事実を活用する。
論文 参考訳(メタデータ) (2023-10-26T17:43:13Z) - Estimating Contamination via Perplexity: Quantifying Memorisation in
Language Model Evaluation [2.4173424114751114]
本稿では,全トレーニングセットにアクセスせずに汚染を定量化する新しい手法を提案する。
我々の分析は、一般的な読み理解、要約ベンチマークにおいて、最近の基礎モデルの顕著な記憶の証拠を提供する一方で、複数の選択が汚染されていないように見える。
論文 参考訳(メタデータ) (2023-09-19T15:02:58Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Data Contamination: From Memorization to Exploitation [5.997909991352044]
下流タスクにおいて、モデルがどのように汚染されたデータを悪用しているかは明らかではない。
我々は、ウィキペディアの共同コーパスでBERTモデルを事前訓練し、下流データセットをラベル付けし、関連するタスクでそれらを微調整する。
2つのモデルと3つのダウンストリームタスクによる実験では、いくつかのケースでは悪用が存在するが、他のケースでは、汚染されたデータを記憶しているが、悪用しない。
論文 参考訳(メタデータ) (2022-03-15T20:37:16Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z) - CHEER: Rich Model Helps Poor Model via Knowledge Infusion [69.23072792708263]
我々は、そのようなリッチなモデルを伝達可能な表現に簡潔に要約できる知識注入フレームワークCHEERを開発した。
実験の結果、CHEERは複数の生理的データセットのマクロF1スコアにおいて、ベースラインを5.60%から46.80%上回った。
論文 参考訳(メタデータ) (2020-05-21T21:44:21Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。