論文の概要: NLP Evaluation in trouble: On the Need to Measure LLM Data Contamination
for each Benchmark
- arxiv url: http://arxiv.org/abs/2310.18018v1
- Date: Fri, 27 Oct 2023 09:48:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 14:23:47.537977
- Title: NLP Evaluation in trouble: On the Need to Measure LLM Data Contamination
for each Benchmark
- Title(参考訳): トラブル時のNLP評価:ベンチマーク毎のLPMデータ汚染の測定の必要性について
- Authors: Oscar Sainz, Jon Ander Campos, Iker Garc\'ia-Ferrero, Julen Etxaniz,
Oier Lopez de Lacalle, Eneko Agirre
- Abstract要約: 我々は、注釈付きベンチマークを用いた自然言語処理(NLP)タスクの古典的評価が問題となっていると論じる。
最悪のデータ汚染は、Large Language Model(LLM)がベンチマークのテスト分割に基づいてトレーニングされ、同じベンチマークで評価された時に発生する。
このポジションペーパーは、異なるレベルのデータ汚染を定義し、コミュニティの努力を主張する。
- 参考スコア(独自算出の注目度): 19.875954121100005
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this position paper, we argue that the classical evaluation on Natural
Language Processing (NLP) tasks using annotated benchmarks is in trouble. The
worst kind of data contamination happens when a Large Language Model (LLM) is
trained on the test split of a benchmark, and then evaluated in the same
benchmark. The extent of the problem is unknown, as it is not straightforward
to measure. Contamination causes an overestimation of the performance of a
contaminated model in a target benchmark and associated task with respect to
their non-contaminated counterparts. The consequences can be very harmful, with
wrong scientific conclusions being published while other correct ones are
discarded. This position paper defines different levels of data contamination
and argues for a community effort, including the development of automatic and
semi-automatic measures to detect when data from a benchmark was exposed to a
model, and suggestions for flagging papers with conclusions that are
compromised by data contamination.
- Abstract(参考訳): 本稿では,注釈付きベンチマークを用いた自然言語処理(NLP)タスクの古典的評価が問題となっていることを論じる。
最悪のデータ汚染は、Large Language Model(LLM)がベンチマークのテスト分割に基づいてトレーニングされ、同じベンチマークで評価された時に発生する。
問題の範囲は、測定が容易ではないため、不明である。
汚染は、ターゲットベンチマークにおける汚染モデルの性能の過大評価と、汚染されていないモデルに対する関連するタスクを引き起こす。
結果は非常に有害であり、間違った科学的結論が公表され、他の正しい結論が破棄される。
本論文は,データ汚染のレベルを規定し,ベンチマークのデータがモデルに暴露されたときの自動的および半自動的な計測方法の開発や,データ汚染によって汚染された結論を文書にフラグする提案など,コミュニティの取り組みについて論じる。
関連論文リスト
- Generalization or Memorization: Data Contamination and Trustworthy
Evaluation for Large Language Models [34.60647883219719]
CDD は LLM の出力分布による汚染検出の略である。
評価におけるデータ汚染の影響を軽減するため、TED:出力分布による信頼に値する評価も提示する。
論文 参考訳(メタデータ) (2024-02-24T23:54:41Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large
Language Models [55.8717261687206]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - AMRFact: Enhancing Summarization Factuality Evaluation with AMR-driven
Training Data Generation [63.18211192998151]
本稿では,現実的に一貫性のない要約を生成する新しいフレームワークであるAMRFactを提案する。
提案手法は, 現実的に正しい要約をAMRグラフに解析し, 否定的な例を生成するために制御された事実矛盾を注入する。
提案手法は,AggreFact-SOTAデータセットにおいて,従来のシステムよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-11-16T02:56:29Z) - CLEAN-EVAL: Clean Evaluation on Contaminated Large Language Models [12.832227070869829]
clean-Evalは、データ汚染の問題を緩和し、よりクリーンな方法でモデルを評価する。
clean-Eval は LLM を使用して、汚染されたデータを候補セットに逆変換する。
次にセマンティック検出器を使用して、生成された低品質サンプルをフィルタリングする。
ベスト候補は最終的にBLEURTスコアに基づいてこのセットから選択される。
論文 参考訳(メタデータ) (2023-11-15T17:50:30Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - Data Contamination Through the Lens of Time [21.933771085956426]
大規模言語モデル(LLM)は一般に利用可能なベンチマークを評価することでしばしばサポートされる。
このプラクティスは、データ汚染の懸念、すなわち、トレーニングデータに明示的にまたは暗黙的に含まれている例を評価することを提起する。
GPTモデルにおけるトレーニングカットオフの自然実験を用いて, LLMにおけるデータ汚染の経時的解析を行った。
論文 参考訳(メタデータ) (2023-10-16T17:51:29Z) - Time Travel in LLMs: Tracing Data Contamination in Large Language Models [29.56037518816495]
本稿では,大規模言語モデル(LLM)におけるデータ汚染の簡易かつ効果的な同定法を提案する。
私たちのアプローチの中核は、インスタンスレベルで潜在的汚染を特定することから始まります。
個別インスタンスの汚染を推定するために、データセット名、パーティションタイプ、参照インスタンスのランダム長初期セグメントからなるプロンプト「誘導命令」を用いる。
論文 参考訳(メタデータ) (2023-08-16T16:48:57Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。