Fugu-MT 論文翻訳(概要): Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation

論文の概要: Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation

arxiv url: http://arxiv.org/abs/2406.13990v2
Date: Sun, 23 Jun 2024 16:46:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-25 13:26:35.276977
Title: Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation
Title（参考訳）: 推論時間除去:大規模言語モデル評価のための漏洩ベンチマークの再利用
Authors: Qin Zhu, Qingyuan Cheng, Runyu Peng, Xiaonan Li, Tengxiao Liu, Ru Peng, Xipeng Qiu, Xuanjing Huang,
Abstract要約: ベンチマークの漏洩は、大規模言語モデルの真のパフォーマンスの正確な評価を防ぐことができる。この問題に対処するため,ITD(Inference-Time Decontamination)を提案する。 ITDは、GSM8Kで22.9%、MMLUで19.0%の膨張精度を低下させる。
参考スコア（独自算出の注目度）: 61.350306618479365
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The training process of large language models (LLMs) often involves varying degrees of test data contamination. Although current LLMs are achieving increasingly better performance on various benchmarks, their performance in practical applications does not always match their benchmark results. Leakage of benchmarks can prevent the accurate assessment of LLMs' true performance. However, constructing new benchmarks is costly, labor-intensive and still carries the risk of leakage. Therefore, in this paper, we ask the question, Can we reuse these leaked benchmarks for LLM evaluation? We propose Inference-Time Decontamination (ITD) to address this issue by detecting and rewriting leaked samples without altering their difficulties. ITD can mitigate performance inflation caused by memorizing leaked benchmarks. Our proof-of-concept experiments demonstrate that ITD reduces inflated accuracy by 22.9% on GSM8K and 19.0% on MMLU. On MMLU, using Inference-time Decontamination can lead to a decrease in the results of Phi3 and Mistral by 6.7% and 3.6% respectively. We hope that ITD can provide more truthful evaluation results for large language models.
Abstract（参考訳）: 大規模言語モデル(LLM)のトレーニングプロセスは、テストデータ汚染の度合いが異なることが多い。現在のLLMは様々なベンチマークで性能が向上しているが、実際のアプリケーションでの性能は必ずしもベンチマーク結果と一致しない。ベンチマークの漏洩は、LLMの真の性能の正確な評価を防ぐことができる。しかし、新しいベンチマークの構築はコストが高く、労働集約的であり、依然としてリークのリスクを負っている。そこで本稿では,LLM評価のために,これらのリークベンチマークを再利用できるのか,という疑問を提起する。そこで我々は,この問題に対処するために,漏洩したサンプルを検出・書き直しすることによる推論時間汚染 (ITD) を提案する。 ITDは、リークベンチマークを記憶することによるパフォーマンスインフレーションを軽減することができる。概念実証実験により, GSM8Kで22.9%, MMLUで19.0%の精度でITDは膨張精度を低下させることが示された。 MMLUでは、推論時間による除染はPhi3とMistralの結果をそれぞれ6.7%、Mistralは3.6%減少させる。私たちは、ITDがより大きな言語モデルに対してより誠実な評価結果を提供できることを願っています。

関連論文リスト

Benchmarking LLMs for Unit Test Generation from Real-World Functions [34.70460519870186]
ULT(UnLeakedTestbench)は,実世界のPython関数から関数レベルのユニットテストを生成するために設計された,新しいベンチマークである。 3,909個の関数レベルのタスクを慎重に選択することで、ULTはLLMのテスト生成能力をより現実的で挑戦的な評価を提供する。以上の結果から,ULTはより困難であることが示唆された。
論文参考訳（メタデータ） (2025-08-01T08:08:26Z)
How Much Do Large Language Model Cheat on Evaluation? Benchmarking Overestimation under the One-Time-Pad-Based Framework [8.76693832650115]
大規模言語モデル(LLM)を評価する際の過大評価が懸念されている。本稿では,暗号におけるワンタイムパッド暗号化にインスパイアされた動的評価フレームワークArxivRollを提案する。
論文参考訳（メタデータ） (2025-07-25T12:39:03Z)
LessLeak-Bench: A First Investigation of Data Leakage in LLMs Across 83 Software Engineering Benchmarks [15.584759853972992]
大規模言語モデル(LLM)は、コード生成やプログラムの自動修復といったソフトウェア工学(SE)タスクで広く利用されている。広範囲かつしばしば開示されていない事前トレーニングデータセットへの依存は、データ漏洩に関する重大な懸念を提起する。本稿では,LLM に関する 83 SE ベンチマークにおいて,データ漏洩の大規模解析を行った。
論文参考訳（メタデータ） (2025-02-10T07:33:49Z)
MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark [57.999567012489706]
我々は,MMLU-CFと呼ばれる汚染のない,より困難なベンチマークを提案する。このベンチマークは、意図しないデータ漏洩と悪意のないデータ漏洩の両方を回避することで、LLMの世界の知識に対する理解を再評価する。 GPT-4o は 5 ショットスコア73.4% と 0 ショットスコア71.9% しか達成できない。
論文参考訳（メタデータ） (2024-12-19T18:58:04Z)
AntiLeak-Bench: Preventing Data Contamination by Automatically Constructing Benchmarks with Updated Real-World Knowledge [68.39683427262335]
既存の研究は、新たに収集されたデータが既存の知識を含む可能性があるため、汚染のない評価を保証することができない。本稿では,自動アンチリーチベンチマークフレームワークであるAntiLeak-Benchを提案する。
論文参考訳（メタデータ） (2024-12-18T09:53:12Z)
LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文参考訳（メタデータ） (2024-10-09T01:25:10Z)
LIME: Less Is More for MLLM Evaluation [36.29820380945517]
半自動パイプラインによるベンチマークであるLIME(Less Is More for MLLM Evaluation)を提案する。このパイプラインは、非形式的なサンプルをフィルタリングし、イメージベースの理解を必要とするタスクに集中することで、回答のリークを取り除く。実験の結果,LIMEはサンプル数を76%減らし,評価時間を77%減らした。
論文参考訳（メタデータ） (2024-09-10T20:19:14Z)
PaCoST: Paired Confidence Significance Testing for Benchmark Contamination Detection in Large Language Models [41.772263447213234]
大規模言語モデル(LLM)は膨大な量のデータに基づいて訓練されることが知られており、意図的または故意によく使われるベンチマークのデータを含むことがある。このインクルージョンは、モデルリーダーボードの不正な高いスコアにつながるが、現実のアプリケーションではパフォーマンスに失望する。 LLMのベンチマーク汚染を効果的に検出するPaired Confidence Significance TestingであるPaCoSTを紹介する。
論文参考訳（メタデータ） (2024-06-26T13:12:40Z)
MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文参考訳（メタデータ） (2024-06-03T05:47:05Z)
Investigating Data Contamination in Modern Benchmarks for Large Language Models [27.479260572913724]
近年の観測は、膨らませたベンチマークスコアとLLMの実際の性能の相違を裏付けている。我々は,オープンソースのLLMとプロプライエタリなLLMの両方に適した2つの手法を提案し,データ汚染について検討した。いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。
論文参考訳（メタデータ） (2023-11-16T11:03:04Z)
Rethinking Benchmark and Contamination for Language Models with Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文参考訳（メタデータ） (2023-11-08T17:35:20Z)
Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。 LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。 LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文参考訳（メタデータ） (2023-10-15T12:40:30Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。