Fugu-MT 論文翻訳(概要): LatestEval: Addressing Data Contamination in Language Model Evaluation through Dynamic and Time-Sensitive Test Construction

論文の概要: LatestEval: Addressing Data Contamination in Language Model Evaluation through Dynamic and Time-Sensitive Test Construction

arxiv url: http://arxiv.org/abs/2312.12343v3
Date: Fri, 1 Mar 2024 15:17:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-05 20:01:48.813504
Title: LatestEval: Addressing Data Contamination in Language Model Evaluation through Dynamic and Time-Sensitive Test Construction
Title（参考訳）: 動的および時間に敏感なテスト構築による言語モデル評価におけるデータ汚染対策
Authors: Yucheng Li, Frank Guerin, Chenghua Lin
Abstract要約: LatestEvalは、最新のテキストを活用して、非汚染読影理解評価を作成する自動手法である。これは、最近のタイムウインドウで公開されたテキストのみを使用することでデータ汚染を回避し、事前訓練された言語モデルのトレーニングコーパスと重複しないようにする。実験の結果,従来のベンチマークとは対照的に,言語モデルは LatestEval 上で無視可能な記憶行動を示すことがわかった。
参考スコア（独自算出の注目度）: 21.553915781660905
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data contamination in evaluation is getting increasingly prevalent with the emergence of language models pre-trained on super large, automatically crawled corpora. This problem leads to significant challenges in the accurate assessment of model capabilities and generalisations. In this paper, we propose LatestEval, an automatic method that leverages the most recent texts to create uncontaminated reading comprehension evaluations. LatestEval avoids data contamination by only using texts published within a recent time window, ensuring no overlap with the training corpora of pre-trained language models. We develop the LatestEval automated pipeline to 1) gather the latest texts; 2) identify key information, and 3) construct questions targeting the information while removing the existing answers from the context. This encourages models to infer the answers themselves based on the remaining context, rather than just copy-paste. Our experiments demonstrate that language models exhibit negligible memorisation behaviours on LatestEval as opposed to previous benchmarks, suggesting a significantly reduced risk of data contamination and leading to a more robust evaluation. Data and code are publicly available at: https://github.com/liyucheng09/LatestEval.
Abstract（参考訳）: 超大型で自動クロールコーパスで事前訓練された言語モデルの出現に伴い、評価におけるデータの汚染がますます高まっている。この問題は、モデル能力と一般化の正確な評価において重大な課題をもたらす。本稿では,最新のテキストを利用して非汚染読影理解評価を作成する自動手法であるLatestEvalを提案する。最新Evalは、最近のタイムウインドウで公開されたテキストのみを使用することでデータ汚染を回避し、事前訓練された言語モデルのトレーニングコーパスと重複しないようにする。最新の自動化パイプラインを開発し 1) 最新のテキストを収集する。 2) キー情報を特定し, 3)既存の回答を文脈から取り除きながら情報を対象とした質問を構築する。これにより、モデルは単にコピーペーストではなく、残りのコンテキストに基づいて回答を推論する。実験の結果,従来のベンチマークと対照的に,言語モデルでは無視可能な記憶行動を示し,データ汚染のリスクを著しく低減し,より堅牢な評価につながることが示唆された。データとコードは、https://github.com/liyucheng09/LatestEval.comで公開されている。

関連論文リスト

A Survey on Data Contamination for Large Language Models [12.431575579432458]
大規模言語モデル(LLM)は、テキスト生成やコード合成など、様々な分野で大きな進歩を見せている。データ汚染による性能評価の信頼性は精査されている。
論文参考訳（メタデータ） (2025-02-20T10:23:27Z)
SCOPE: A Self-supervised Framework for Improving Faithfulness in Conditional Text Generation [55.61004653386632]
LLM(Large Language Models)は、しばしば幻覚(幻覚)を生成する。本稿では,不信なサンプルのトレーニングセットを生成するための,新たな自己指導手法を提案する。そしてトレーニングプロセスを使ってモデルを洗練し、不信なものよりも基礎的なアウトプットの生成を奨励します。
論文参考訳（メタデータ） (2025-02-19T12:31:58Z)
VarBench: Robust Language Model Benchmarking Through Dynamic Variable Perturbation [16.889939234103153]
本稿では,ベンチマークをバリビライズし,動的に言語モデルを評価することを提案する。具体的には、各テストケースから変数を抽出し、各変数の値範囲を定義する。それぞれの評価のために、これらの値から新しい値をサンプリングし、ユニークなテストケースを作成します。
論文参考訳（メタデータ） (2024-06-25T16:13:53Z)
Rethinking Benchmark and Contamination for Language Models with Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文参考訳（メタデータ） (2023-11-08T17:35:20Z)
RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文参考訳（メタデータ） (2023-10-16T16:42:01Z)
Error Norm Truncation: Robust Training in the Presence of Data Noise for Text Generation Models [39.37532848489779]
本稿では,ノイズの多いデータをトラストする標準学習目標に対する頑健な強化手法であるError Norm Truncation (ENT)を提案する。 ENTは,従来のソフト・ハード・トランケーション法よりも生成品質の向上を図っている。
論文参考訳（メタデータ） (2023-10-02T01:30:27Z)
Bring Your Own Data! Self-Supervised Evaluation for Large Language Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。自己監督評価と人監督評価との間には強い相関関係が認められた。
論文参考訳（メタデータ） (2023-06-23T17:59:09Z)
Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文参考訳（メタデータ） (2023-01-22T18:22:55Z)
mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。事実整合性評価モデルを利用して、多言語要約を改善する。
論文参考訳（メタデータ） (2022-12-20T19:52:41Z)
On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文参考訳（メタデータ） (2022-12-20T06:24:25Z)
Mitigating harm in language models with conditional-likelihood filtration [4.002298833349518]
本稿では,Webスケールの未フィルタリングデータセットから有害なビューを特定する手法を提案する。このフィルタデータセットでトレーニングされたモデルは、有害なテキストを生成するための妥当性が低いことを実証する。我々はまた、研究者がそれぞれの値とより密に整合した言語モデルを構築するために、特定の値が利用できるフレーズをトリガーする方法についても論じる。
論文参考訳（メタデータ） (2021-08-04T22:18:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。