論文の概要: Private Benchmarking to Prevent Contamination and Improve Comparative
Evaluation of LLMs
- arxiv url: http://arxiv.org/abs/2403.00393v1
- Date: Fri, 1 Mar 2024 09:28:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 17:45:53.902990
- Title: Private Benchmarking to Prevent Contamination and Improve Comparative
Evaluation of LLMs
- Title(参考訳): 汚染防止とllmsの比較評価改善のためのプライベートベンチマーク
- Authors: Nishanth Chandran, Sunayana Sitaram, Divya Gupta, Rahul Sharma,
Kashish Mittal, Manohar Swaminathan
- Abstract要約: テストデータセットをプライベートに保持し、モデルにテストデータを公開せずにモデルを評価するソリューションであるPrivate Benchmarkingを提案する。
モデル所有者やデータセット所有者の信頼度に依存する)様々なシナリオを説明し、プライベートベンチマークによるデータの汚染を避けるためのソリューションを提示します。
- 参考スコア(独自算出の注目度): 14.064230826683085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmarking is the de-facto standard for evaluating LLMs, due to its speed,
replicability and low cost. However, recent work has pointed out that the
majority of the open source benchmarks available today have been contaminated
or leaked into LLMs, meaning that LLMs have access to test data during
pretraining and/or fine-tuning. This raises serious concerns about the validity
of benchmarking studies conducted so far and the future of evaluation using
benchmarks. To solve this problem, we propose Private Benchmarking, a solution
where test datasets are kept private and models are evaluated without revealing
the test data to the model. We describe various scenarios (depending on the
trust placed on model owners or dataset owners), and present solutions to avoid
data contamination using private benchmarking. For scenarios where the model
weights need to be kept private, we describe solutions from confidential
computing and cryptography that can aid in private benchmarking. Finally, we
present solutions the problem of benchmark dataset auditing, to ensure that
private benchmarks are of sufficiently high quality.
- Abstract(参考訳): ベンチマークは LLM を評価するためのデファクト標準であり、その速度、複製性、低コストのためである。
しかし、最近の研究によると、現在入手可能なオープンソースベンチマークの大部分は汚染されたり、llmにリークされたりしており、llmは事前トレーニングや微調整中にテストデータにアクセスすることができる。
これは、これまで行われたベンチマーク研究の妥当性と、ベンチマークを用いた評価の将来について深刻な懸念を提起する。
この問題を解決するために、テストデータセットをプライベートに保持し、モデルにテストデータを公開することなくモデルを評価するソリューションであるPrivate Benchmarkingを提案する。
我々は,様々なシナリオ(モデルオーナやデータセットオーナの信頼度に依存する)について記述し,プライベートベンチマークによるデータ汚染を回避するソリューションを提案する。
モデルウェイトをプライベートにしておく必要があるシナリオでは、秘密コンピューティングとプライベートベンチマークに役立つ暗号のソリューションを説明します。
最後に、プライベートベンチマークが十分に高品質であることを保証するため、ベンチマークデータセット監査の問題を提案する。
関連論文リスト
- Have Seen Me Before? Automating Dataset Updates Towards Reliable and
Timely Evaluation [59.91488389687633]
大きな言語モデル(LLM)は、ますます深刻な評価課題に直面しています。
本稿では,信頼性とタイムリーな評価のために,データセットの更新を自動化することを提案する。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Investigating Data Contamination in Modern Benchmarks for Large Language
Models [29.48101352768151]
近年の観測は、膨らませたベンチマークスコアとLLMの実際の性能の相違を裏付けている。
我々は,オープンソースのLLMとプロプライエタリなLLMの両方に適した2つの手法を提案し,データ汚染について検討した。
いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。
論文 参考訳(メタデータ) (2023-11-16T11:03:04Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - NLP Evaluation in trouble: On the Need to Measure LLM Data Contamination
for each Benchmark [19.875954121100005]
我々は、注釈付きベンチマークを用いた自然言語処理(NLP)タスクの古典的評価が問題となっていると論じる。
最悪のデータ汚染は、Large Language Model(LLM)がベンチマークのテスト分割に基づいてトレーニングされ、同じベンチマークで評価された時に発生する。
このポジションペーパーは、異なるレベルのデータ汚染を定義し、コミュニティの努力を主張する。
論文 参考訳(メタデータ) (2023-10-27T09:48:29Z) - Data Contamination Through the Lens of Time [21.933771085956426]
大規模言語モデル(LLM)は一般に利用可能なベンチマークを評価することでしばしばサポートされる。
このプラクティスは、データ汚染の懸念、すなわち、トレーニングデータに明示的にまたは暗黙的に含まれている例を評価することを提起する。
GPTモデルにおけるトレーニングカットオフの自然実験を用いて, LLMにおけるデータ汚染の経時的解析を行った。
論文 参考訳(メタデータ) (2023-10-16T17:51:29Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - A Review of Benchmarks for Visual Defect Detection in the Manufacturing
Industry [63.52264764099532]
本稿では,既存のベンチマークを用いて,それらの特性とユースケースを比較し,公開する。
産業メトリクスの要求と試験手順についての研究は、研究されたベンチマークに提示され、適用されます。
論文 参考訳(メタデータ) (2023-05-05T07:44:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。