論文の概要: Avoiding Data Contamination in Language Model Evaluation: Dynamic Test
Construction with Latest Materials
- arxiv url: http://arxiv.org/abs/2312.12343v1
- Date: Tue, 19 Dec 2023 17:16:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 14:37:49.294692
- Title: Avoiding Data Contamination in Language Model Evaluation: Dynamic Test
Construction with Latest Materials
- Title(参考訳): 言語モデル評価におけるデータ汚染回避:最新の材料を用いた動的テスト構築
- Authors: Yucheng Li, Frank Geurin, Chenghua Lin
- Abstract要約: LatestEvalは、最新のテキストを活用して、非汚染読影理解評価を作成する自動手法である。
これは、最近のタイムウインドウで公開されたテキストのみを使用することでデータ汚染を回避し、事前訓練された言語モデルのトレーニングコーパスと重複しないようにする。
実験の結果,従来のベンチマークとは対照的に,言語モデルは LatestEval 上で無視可能な記憶行動を示すことがわかった。
- 参考スコア(独自算出の注目度): 16.182578177104592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data contamination in evaluation is getting increasingly prevalent with the
emerge of language models pre-trained on super large, automatically-crawled
corpora. This problem leads to significant challenges in accurate assessment of
model capabilities and generalisations. In this paper, we propose LatestEval,
an automatic method leverages the most recent texts to create uncontaminated
reading comprehension evaluations. LatestEval avoids data contamination by only
using texts published within a recent time window, ensuring no overlap with the
training corpora of pre-trained language models. We develop LatestEval
automated pipeline to 1) gather latest texts; 2) identify key information, and
3) construct questions targeting the information while removing the existing
answers from the context. This encourages models to infer the answers
themselves based on the remaining context, rather than just copy-paste. Our
experiments demonstrate that language models exhibit negligible memorisation
behaviours on LatestEval as opposed to previous benchmarks, suggesting a
significantly reduced risk of data contamination and leading to a more robust
evaluation. Data and code are publicly available at:
https://github.com/liyucheng09/LatestEval.
- Abstract(参考訳): 評価におけるデータの汚染は、超大型で自動クロールしたコーパスで事前訓練された言語モデルの出現とともにますます広まっている。
この問題は、モデル能力と一般化の正確な評価において重大な課題をもたらす。
本稿では,最新のテキストを自動で活用し,非汚染読影理解評価を行う LatestEval を提案する。
最新Evalは、最近のタイムウインドウで公開されたテキストのみを使用することでデータ汚染を回避し、事前訓練された言語モデルのトレーニングコーパスと重複しないようにする。
最新の自動化パイプラインを開発し
1) 最新のテキストを収集する。
2) キー情報を特定し,
3)既存の回答を文脈から取り除きながら情報を対象とした質問を構築する。
これにより、モデルは単にコピーペーストではなく、残りのコンテキストに基づいて回答を推論する。
実験の結果,従来のベンチマークと対照的に,言語モデルでは無視可能な記憶行動を示し,データ汚染のリスクを著しく低減し,より堅牢な評価につながることが示唆された。
データとコードは、https://github.com/liyucheng09/LatestEval.comで公開されている。
関連論文リスト
- VarBench: Robust Language Model Benchmarking Through Dynamic Variable Perturbation [16.889939234103153]
本稿では,ベンチマークをバリビライズし,動的に言語モデルを評価することを提案する。
具体的には、各テストケースから変数を抽出し、各変数の値範囲を定義する。
それぞれの評価のために、これらの値から新しい値をサンプリングし、ユニークなテストケースを作成します。
論文 参考訳(メタデータ) (2024-06-25T16:13:53Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - Error Norm Truncation: Robust Training in the Presence of Data Noise for Text Generation Models [39.37532848489779]
本稿では,ノイズの多いデータをトラストする標準学習目標に対する頑健な強化手法であるError Norm Truncation (ENT)を提案する。
ENTは,従来のソフト・ハード・トランケーション法よりも生成品質の向上を図っている。
論文 参考訳(メタデータ) (2023-10-02T01:30:27Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - Mitigating harm in language models with conditional-likelihood
filtration [4.002298833349518]
本稿では,Webスケールの未フィルタリングデータセットから有害なビューを特定する手法を提案する。
このフィルタデータセットでトレーニングされたモデルは、有害なテキストを生成するための妥当性が低いことを実証する。
我々はまた、研究者がそれぞれの値とより密に整合した言語モデルを構築するために、特定の値が利用できるフレーズをトリガーする方法についても論じる。
論文 参考訳(メタデータ) (2021-08-04T22:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。