論文の概要: Overestimation in LLM Evaluation: A Controlled Large-Scale Study on Data Contamination's Impact on Machine Translation
- arxiv url: http://arxiv.org/abs/2501.18771v1
- Date: Thu, 30 Jan 2025 21:51:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:03:39.379795
- Title: Overestimation in LLM Evaluation: A Controlled Large-Scale Study on Data Contamination's Impact on Machine Translation
- Title(参考訳): LLM評価における過大評価:機械翻訳におけるデータ汚染の影響に関する大規模研究
- Authors: Muhammed Yusuf Kocyigit, Eleftheria Briakou, Daniel Deutsch, Jiaming Luo, Colin Cherry, Markus Freitag,
- Abstract要約: 機械翻訳作業における1Bと8Bの言語モデルに対する汚染の影響について検討した。
実験の結果,ソースとターゲットの汚染がBLEUスコアを大幅に膨らませていることが判明した。
対照的に、ソースのみの汚染とターゲットのみの汚染は、概して小さく、一貫性の低い過剰推定を生み出す。
- 参考スコア(独自算出の注目度): 46.148465860465095
- License:
- Abstract: Data contamination -- the accidental consumption of evaluation examples within the pre-training data -- can undermine the validity of evaluation benchmarks. In this paper, we present a rigorous analysis of the effects of contamination on language models at 1B and 8B scales on the machine translation task. Starting from a carefully decontaminated train-test split, we systematically introduce contamination at various stages, scales, and data formats to isolate its effect and measure its impact on performance metrics. Our experiments reveal that contamination with both source and target substantially inflates BLEU scores, and this inflation is 2.5 times larger (up to 30 BLEU points) for 8B compared to 1B models. In contrast, source-only and target-only contamination generally produce smaller, less consistent over-estimations. Finally, we study how the temporal distribution and frequency of contaminated samples influence performance over-estimation across languages with varying degrees of data resources.
- Abstract(参考訳): データ汚染 - 事前トレーニングデータ内での評価例を偶然に消費する - は、評価ベンチマークの有効性を損なう可能性がある。
本稿では,機械翻訳作業における1Bと8Bの言語モデルに対する汚染の影響を厳密に分析する。
慎重に分離された列車-テストの分割から始めて、さまざまなステージ、スケール、データフォーマットで汚染を体系的に導入し、その効果を分離し、パフォーマンス指標への影響を測定する。
実験の結果,ソースおよびターゲットの汚染はBLEUスコアを実質的に膨張させ,このインフレーションは1Bモデルに比べて8Bに対して2.5倍(最大30BLEUポイント)大きいことがわかった。
対照的に、ソースのみの汚染とターゲットのみの汚染は、概して小さく、一貫性の低い過剰推定を生み出す。
最後に, 汚染サンプルの時間分布と頻度が, 様々なデータ資源を持つ言語間での性能過大評価に与える影響について検討した。
関連論文リスト
- Evaluation data contamination in LLMs: how do we measure it and (when) does it matter? [10.691754344782387]
どのサンプルを汚染されるべきか、それがベンチマークスコアに与える影響を正確に定義することは困難である。
本稿では,ConTAMと呼ばれる新しい分析手法を提案する。
汚染は最近のLCMリリースで報告されたよりもはるかに大きな効果を示し、異なるスケールで異なるモデルに利益をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-11-06T13:54:08Z) - A Taxonomy for Data Contamination in Large Language Models [12.643103231497813]
増大する懸念は、事前学習コーパスに評価データセットを含めることができるデータ汚染である。
このようなデータを検知し、除去するプロセスである汚染除去は、潜在的な解決策である。
下流タスクにおける言語モデルの性能に異なる種類の汚染がどのような影響を及ぼすかは、完全には理解されていない。
論文 参考訳(メタデータ) (2024-07-11T17:50:34Z) - ConStat: Performance-Based Contamination Detection in Large Language Models [7.305342793164905]
コンスタット(ConStat)は、参照モデルの集合に対する一次ベンチマークと参照ベンチマークのパフォーマンスを比較することで、汚染を確実に検出し、定量化する統計手法である。
多様なモデルアーキテクチャ,ベンチマーク,汚染シナリオの広範な評価において,ConStatの有効性を実証する。
論文 参考訳(メタデータ) (2024-05-25T15:36:37Z) - Generalization or Memorization: Data Contamination and Trustworthy Evaluation for Large Language Models [42.958880063727996]
CDD は LLM の出力分布による汚染検出の略である。
評価におけるデータ汚染の影響を軽減するため、TED:出力分布による信頼に値する評価も提示する。
論文 参考訳(メタデータ) (2024-02-24T23:54:41Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Data Attribution for Diffusion Models: Timestep-induced Bias in Influence Estimation [53.27596811146316]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。
本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。
そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2024-01-17T07:58:18Z) - Investigating Data Contamination for Pre-training Language Models [46.335755305642564]
我々は,一連のGPT-2モデルを事前学習することで,事前学習段階におけるデータ汚染の影響について検討する。
評価データから,テキスト汚染 (テキスト, 評価サンプルの入力テキスト) と接地トラス汚染 (テキスト, 入力に要求されるプロンプトと所望の出力) の両方の効果を強調した。
論文 参考訳(メタデータ) (2024-01-11T17:24:49Z) - Rethinking InfoNCE: How Many Negative Samples Do You Need? [54.146208195806636]
半定量的理論フレームワークを用いて, InfoNCE に最適化された負のサンプル数について検討した。
トレーニングの有効性関数を最大化する$K$値を用いて,最適負サンプリング比を推定する。
論文 参考訳(メタデータ) (2021-05-27T08:38:29Z) - Efficient Causal Inference from Combined Observational and
Interventional Data through Causal Reductions [68.6505592770171]
因果効果を推定する際の主な課題の1つである。
そこで本研究では,任意の数の高次元潜入共創者を置き換える新たな因果還元法を提案する。
パラメータ化縮小モデルを観測データと介入データから共同で推定する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-08T14:29:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。