論文の概要: Estimating Contamination via Perplexity: Quantifying Memorisation in
Language Model Evaluation
- arxiv url: http://arxiv.org/abs/2309.10677v1
- Date: Tue, 19 Sep 2023 15:02:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 14:04:41.477133
- Title: Estimating Contamination via Perplexity: Quantifying Memorisation in
Language Model Evaluation
- Title(参考訳): パープレキシティによる汚染推定:言語モデル評価における記憶の定量化
- Authors: Yucheng Li
- Abstract要約: 本稿では,全トレーニングセットにアクセスせずに汚染を定量化する新しい手法を提案する。
我々の分析は、一般的な読み理解、要約ベンチマークにおいて、最近の基礎モデルの顕著な記憶の証拠を提供する一方で、複数の選択が汚染されていないように見える。
- 参考スコア(独自算出の注目度): 2.4173424114751114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data contamination in model evaluation is getting increasingly prevalent as
the massive training corpora of large language models often unintentionally
include benchmark samples. Therefore, contamination analysis has became an
inevitable part of reliable model evaluation. However, existing method of
contamination analysis requires the access of the entire training data which is
often confidential for recent models. This prevent the community to rigorously
audit these models and conduct accurate assessment of their capability. In this
paper, we propose a novel method to quantify contamination without the access
of the full training set, that measure the extent of contamination with
perplexity. Our analysis provides evidence of significant memorisation of
recent foundation models in popular reading comprehension, summarisation
benchmarks, while multiple choice appears less contaminated.
- Abstract(参考訳): 大規模言語モデルの大規模なトレーニングコーパスが、しばしば意図せずベンチマークサンプルを含んでいるため、モデル評価におけるデータの汚染がますます広まっている。
そのため,汚染分析は信頼性モデル評価の必然的な部分となっている。
しかし、既存の汚染分析の方法は、最近のモデルでは秘密化されることが多いトレーニングデータ全体にアクセスする必要がある。
これにより、コミュニティはこれらのモデルを厳密に監査し、その能力の正確な評価を行うことができる。
本稿では,過度に汚染の程度を測定するために,完全なトレーニングセットにアクセスせずに汚染を定量化する新しい手法を提案する。
本分析では,最近の基礎モデルにおいて,読解,要約ベンチマークにおいて重要な記憶の証拠を提供するとともに,複数の選択があまり汚染されないことを示す。
関連論文リスト
- KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large
Language Models [55.8717261687206]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Evading Data Contamination Detection for Language Models is (too) Easy [9.024665800235855]
大規模な言語モデルは、必然的に公開ベンチマークによる汚染につながる可能性がある。
本稿では,モデルプロバイダと汚染検出手法の両方の分類を提案する。
これは、私たちがEALで活用している既存のメソッドの脆弱性を明らかにします。
論文 参考訳(メタデータ) (2024-02-05T09:10:32Z) - Small Effect Sizes in Malware Detection? Make Harder Train/Test Splits! [51.668411293817464]
業界関係者は、モデルが数億台のマシンにデプロイされているため、マルウェア検出精度の小さな改善に気を配っている。
学術研究はしばしば1万のサンプルの順序で公開データセットに制限される。
利用可能なサンプルのプールから難易度ベンチマークを生成するためのアプローチを考案する。
論文 参考訳(メタデータ) (2023-12-25T21:25:55Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - Proving Test Set Contamination in Black Box Language Models [20.576866080360247]
本研究では,事前学習データやモデルの重み付けを使わずに,言語モデルにおけるテストセット汚染の証明可能な保証を提供することが可能であることを示す。
我々のアプローチは、データ汚染がない場合、交換可能なベンチマークの全ての順序が等しくなるという事実を活用する。
論文 参考訳(メタデータ) (2023-10-26T17:43:13Z) - An Open Source Data Contamination Report for Large Language Models [21.553915781660905]
本稿では,15以上のポピュラーな大言語モデルを対象とした広範囲なデータ汚染レポートを提案する。
我々はまた、コミュニティがカスタマイズされたデータやモデル上で汚染分析を行うことを可能にするオープンソースのパイプラインも導入した。
論文 参考訳(メタデータ) (2023-10-26T17:11:42Z) - Learning Sample Difficulty from Pre-trained Models for Reliable
Prediction [55.77136037458667]
本稿では,大規模事前学習モデルを用いて,サンプル難易度を考慮したエントロピー正規化による下流モデルトレーニングを指導する。
我々は、挑戦的なベンチマークで精度と不確実性の校正を同時に改善する。
論文 参考訳(メタデータ) (2023-04-20T07:29:23Z) - The Implicit Delta Method [61.36121543728134]
本稿では,不確実性のトレーニング損失を無限に正規化することで機能する,暗黙のデルタ法を提案する。
有限差分により無限小変化が近似された場合でも, 正則化による評価の変化は評価推定器の分散に一定であることを示す。
論文 参考訳(メタデータ) (2022-11-11T19:34:17Z) - Debugging Tests for Model Explanations [18.073554618753395]
テストされたメソッドは、急激なバックグラウンドバグを診断することができるが、誤ってラベル付けされたトレーニング例を決定的に識別することはできない。
被験者は属性を用いて欠陥モデルを特定するのに失敗するが、主にモデル予測に頼っている。
論文 参考訳(メタデータ) (2020-11-10T22:23:25Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。