Fugu-MT 論文翻訳(概要): Estimating Contamination via Perplexity: Quantifying Memorisation in Language Model Evaluation

論文の概要: Estimating Contamination via Perplexity: Quantifying Memorisation in Language Model Evaluation

arxiv url: http://arxiv.org/abs/2309.10677v1
Date: Tue, 19 Sep 2023 15:02:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-20 14:04:41.477133
Title: Estimating Contamination via Perplexity: Quantifying Memorisation in Language Model Evaluation
Title（参考訳）: パープレキシティによる汚染推定:言語モデル評価における記憶の定量化
Authors: Yucheng Li
Abstract要約: 本稿では,全トレーニングセットにアクセスせずに汚染を定量化する新しい手法を提案する。我々の分析は、一般的な読み理解、要約ベンチマークにおいて、最近の基礎モデルの顕著な記憶の証拠を提供する一方で、複数の選択が汚染されていないように見える。
参考スコア（独自算出の注目度）: 2.4173424114751114
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data contamination in model evaluation is getting increasingly prevalent as the massive training corpora of large language models often unintentionally include benchmark samples. Therefore, contamination analysis has became an inevitable part of reliable model evaluation. However, existing method of contamination analysis requires the access of the entire training data which is often confidential for recent models. This prevent the community to rigorously audit these models and conduct accurate assessment of their capability. In this paper, we propose a novel method to quantify contamination without the access of the full training set, that measure the extent of contamination with perplexity. Our analysis provides evidence of significant memorisation of recent foundation models in popular reading comprehension, summarisation benchmarks, while multiple choice appears less contaminated.
Abstract（参考訳）: 大規模言語モデルの大規模なトレーニングコーパスが、しばしば意図せずベンチマークサンプルを含んでいるため、モデル評価におけるデータの汚染がますます広まっている。そのため,汚染分析は信頼性モデル評価の必然的な部分となっている。しかし、既存の汚染分析の方法は、最近のモデルでは秘密化されることが多いトレーニングデータ全体にアクセスする必要がある。これにより、コミュニティはこれらのモデルを厳密に監査し、その能力の正確な評価を行うことができる。本稿では,過度に汚染の程度を測定するために,完全なトレーニングセットにアクセスせずに汚染を定量化する新しい手法を提案する。本分析では,最近の基礎モデルにおいて,読解,要約ベンチマークにおいて重要な記憶の証拠を提供するとともに,複数の選択があまり汚染されないことを示す。

関連論文リスト

Robust Molecular Property Prediction via Densifying Scarce Labeled Data [51.55434084913129]
薬物発見において、研究を進める上で最も重要な化合物は、しばしば訓練セットを越えている。本稿では,未ラベルデータを利用したメタラーニングに基づく新しい手法を提案する。実世界のデータセットに挑戦する上で、大きなパフォーマンス向上を示す。
論文参考訳（メタデータ） (2025-06-13T15:27:40Z)
A Survey on Data Contamination for Large Language Models [12.431575579432458]
大規模言語モデル(LLM)は、テキスト生成やコード合成など、様々な分野で大きな進歩を見せている。データ汚染による性能評価の信頼性は精査されている。
論文参考訳（メタデータ） (2025-02-20T10:23:27Z)
Both Text and Images Leaked! A Systematic Analysis of Data Contamination in Multimodal LLM [53.05486269607166]
マルチモーダルな大言語モデル (MLLM) はベンチマーク間で大幅に性能が向上した。マルチモーダルデータ複雑性とマルチフェーズトレーニングのため,既存のLLM検出手法はMLLMでは不十分である。我々は分析フレームワークMM-Detectを用いてマルチモーダルデータの汚染を分析する。
論文参考訳（メタデータ） (2024-11-06T10:44:15Z)
Training on the Test Model: Contamination in Ranking Distillation [14.753216172912968]
蒸留における汚染された教師モデルの効果について検討する。教師のトレーニングサンプルのごく一部を表すテストデータであっても,汚染が生じることが判明した。
論文参考訳（メタデータ） (2024-11-04T17:11:14Z)
Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。 UE識別のための反復フィルタリング手法を提案する。
論文参考訳（メタデータ） (2024-08-15T13:26:13Z)
ConStat: Performance-Based Contamination Detection in Large Language Models [7.305342793164905]
コンスタット(ConStat)は、参照モデルの集合に対する一次ベンチマークと参照ベンチマークのパフォーマンスを比較することで、汚染を確実に検出し、定量化する統計手法である。多様なモデルアーキテクチャ,ベンチマーク,汚染シナリオの広範な評価において,ConStatの有効性を実証する。
論文参考訳（メタデータ） (2024-05-25T15:36:37Z)
A Comprehensive Survey of Contamination Detection Methods in Large Language Models [68.10605098856087]
近年のLarge Language Models(LLM)の台頭に伴い、多くの新しい機会が生まれつつありますが、新たな課題もあります。 LLMの性能は、データへの以前の露出のために、少なくとも部分的には高性能である可能性があるため、もはや信頼性が低い可能性がある。この制限は、NLPの分野での実際の能力向上を阻害するが、汚染を効率的に検出する方法が不足している。
論文参考訳（メタデータ） (2024-03-31T14:32:02Z)
KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。 5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文参考訳（メタデータ） (2024-02-23T01:30:39Z)
Evading Data Contamination Detection for Language Models is (too) Easy [9.024665800235855]
大規模な言語モデルは、必然的に公開ベンチマークによる汚染につながる可能性がある。本稿では,モデルプロバイダと汚染検出手法の両方の分類を提案する。これは、私たちがEALで活用している既存のメソッドの脆弱性を明らかにします。
論文参考訳（メタデータ） (2024-02-05T09:10:32Z)
Rethinking Benchmark and Contamination for Language Models with Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文参考訳（メタデータ） (2023-11-08T17:35:20Z)
An Open Source Data Contamination Report for Large Language Models [21.553915781660905]
本稿では,15以上のポピュラーな大言語モデルを対象とした広範囲なデータ汚染レポートを提案する。我々はまた、コミュニティがカスタマイズされたデータやモデル上で汚染分析を行うことを可能にするオープンソースのパイプラインも導入した。
論文参考訳（メタデータ） (2023-10-26T17:11:42Z)
Learning Sample Difficulty from Pre-trained Models for Reliable Prediction [55.77136037458667]
本稿では,大規模事前学習モデルを用いて,サンプル難易度を考慮したエントロピー正規化による下流モデルトレーニングを指導する。我々は、挑戦的なベンチマークで精度と不確実性の校正を同時に改善する。
論文参考訳（メタデータ） (2023-04-20T07:29:23Z)
The Implicit Delta Method [61.36121543728134]
本稿では,不確実性のトレーニング損失を無限に正規化することで機能する,暗黙のデルタ法を提案する。有限差分により無限小変化が近似された場合でも, 正則化による評価の変化は評価推定器の分散に一定であることを示す。
論文参考訳（メタデータ） (2022-11-11T19:34:17Z)
Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文参考訳（メタデータ） (2020-06-22T21:12:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。