Fugu-MT 論文翻訳(概要): Private Benchmarking to Prevent Contamination and Improve Comparative Evaluation of LLMs

論文の概要: Private Benchmarking to Prevent Contamination and Improve Comparative Evaluation of LLMs

arxiv url: http://arxiv.org/abs/2403.00393v1
Date: Fri, 1 Mar 2024 09:28:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-05 17:45:53.902990
Title: Private Benchmarking to Prevent Contamination and Improve Comparative Evaluation of LLMs
Title（参考訳）: 汚染防止とllmsの比較評価改善のためのプライベートベンチマーク
Authors: Nishanth Chandran, Sunayana Sitaram, Divya Gupta, Rahul Sharma, Kashish Mittal, Manohar Swaminathan
Abstract要約: テストデータセットをプライベートに保持し、モデルにテストデータを公開せずにモデルを評価するソリューションであるPrivate Benchmarkingを提案する。モデル所有者やデータセット所有者の信頼度に依存する)様々なシナリオを説明し、プライベートベンチマークによるデータの汚染を避けるためのソリューションを提示します。
参考スコア（独自算出の注目度）: 14.064230826683085
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Benchmarking is the de-facto standard for evaluating LLMs, due to its speed, replicability and low cost. However, recent work has pointed out that the majority of the open source benchmarks available today have been contaminated or leaked into LLMs, meaning that LLMs have access to test data during pretraining and/or fine-tuning. This raises serious concerns about the validity of benchmarking studies conducted so far and the future of evaluation using benchmarks. To solve this problem, we propose Private Benchmarking, a solution where test datasets are kept private and models are evaluated without revealing the test data to the model. We describe various scenarios (depending on the trust placed on model owners or dataset owners), and present solutions to avoid data contamination using private benchmarking. For scenarios where the model weights need to be kept private, we describe solutions from confidential computing and cryptography that can aid in private benchmarking. Finally, we present solutions the problem of benchmark dataset auditing, to ensure that private benchmarks are of sufficiently high quality.
Abstract（参考訳）: ベンチマークは LLM を評価するためのデファクト標準であり、その速度、複製性、低コストのためである。しかし、最近の研究によると、現在入手可能なオープンソースベンチマークの大部分は汚染されたり、llmにリークされたりしており、llmは事前トレーニングや微調整中にテストデータにアクセスすることができる。これは、これまで行われたベンチマーク研究の妥当性と、ベンチマークを用いた評価の将来について深刻な懸念を提起する。この問題を解決するために、テストデータセットをプライベートに保持し、モデルにテストデータを公開することなくモデルを評価するソリューションであるPrivate Benchmarkingを提案する。我々は,様々なシナリオ(モデルオーナやデータセットオーナの信頼度に依存する)について記述し,プライベートベンチマークによるデータ汚染を回避するソリューションを提案する。モデルウェイトをプライベートにしておく必要があるシナリオでは、秘密コンピューティングとプライベートベンチマークに役立つ暗号のソリューションを説明します。最後に、プライベートベンチマークが十分に高品質であることを保証するため、ベンチマークデータセット監査の問題を提案する。

関連論文リスト

Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。 LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文参考訳（メタデータ） (2025-02-13T03:43:33Z)
Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文参考訳（メタデータ） (2025-02-05T18:58:19Z)
How Should We Build A Benchmark? Revisiting 274 Code-Related Benchmarks For LLMs [60.25940747590386]
本稿では,コード関連ベンチマークの開発を包括的に管理するためのガイドラインとして,55の基準チェックリストからなるHow2Benchを提案する。私たちは過去10年以内にリリースされた274のベンチマークをプロファイルし、問題を見つけました。ベンチマークの70%近くはデータ品質保証の措置を取らず、10%以上がオープンソースでも、部分的にはオープンソースでもなかった。
論文参考訳（メタデータ） (2025-01-18T09:51:57Z)
AntiLeak-Bench: Preventing Data Contamination by Automatically Constructing Benchmarks with Updated Real-World Knowledge [68.39683427262335]
既存の研究は、新たに収集されたデータが既存の知識を含む可能性があるため、汚染のない評価を保証することができない。本稿では,自動アンチリーチベンチマークフレームワークであるAntiLeak-Benchを提案する。
論文参考訳（メタデータ） (2024-12-18T09:53:12Z)
BenchmarkCards: Large Language Model and Risk Reporting [4.224255134206838]
大きな言語モデル(LLM)は強力な能力を提供するが、大きなリスクをもたらす。これらのリスクを軽減する方法の1つは、特定の脆弱性をテストするために設計されたベンチマークを使用して、包括的な事前デプロイ評価を行うことである。 BenchmarkCardsは、LLMベンチマークプロパティのドキュメント化に特化した構造化フレームワークを提供することで、このギャップに対処する。
論文参考訳（メタデータ） (2024-10-16T19:09:02Z)
Benchmark Inflation: Revealing LLM Performance Gaps Using Retro-Holdouts [0.6282171844772422]
多くのLarge Language Models(LLM)のトレーニングデータは、テストデータによって汚染される。公開ベンチマークスコアは必ずしもモデルプロパティを正確に評価するとは限らない。
論文参考訳（メタデータ） (2024-10-11T20:46:56Z)
Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文参考訳（メタデータ） (2024-09-03T11:09:44Z)
PaCoST: Paired Confidence Significance Testing for Benchmark Contamination Detection in Large Language Models [41.772263447213234]
大規模言語モデル(LLM)は膨大な量のデータに基づいて訓練されることが知られており、意図的または故意によく使われるベンチマークのデータを含むことがある。このインクルージョンは、モデルリーダーボードの不正な高いスコアにつながるが、現実のアプリケーションではパフォーマンスに失望する。 LLMのベンチマーク汚染を効果的に検出するPaired Confidence Significance TestingであるPaCoSTを紹介する。
論文参考訳（メタデータ） (2024-06-26T13:12:40Z)
Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation [61.350306618479365]
ベンチマークの漏洩は、大規模言語モデルの真のパフォーマンスの正確な評価を防ぐことができる。この問題に対処するため,ITD(Inference-Time Decontamination)を提案する。 ITDは、GSM8Kで22.9%、MMLUで19.0%の膨張精度を低下させる。
論文参考訳（メタデータ） (2024-06-20T04:35:59Z)
Privacy-Enhanced Database Synthesis for Benchmark Publishing [16.807486872855534]
差分プライバシーは、データ共有時のプライバシ保護の鍵となる方法となっているが、主に集約クエリや分類タスクにおけるエラーの最小化に焦点が当てられている。本稿では,特にベンチマークのためのプライバシ保護データベースの作成について述べる。 PrivBenchは、データ分割とサンプリングにSPN(Sum-product Network)を使用して、プライバシを確保しながらデータ表現を強化する。
論文参考訳（メタデータ） (2024-05-02T14:20:24Z)
Benchmarking Benchmark Leakage in Large Language Models [24.015208839742343]
本稿では,モデル予測精度をベンチマークで評価する2つの単純かつスケーラブルな指標であるPerplexityとN-gramの精度を利用した検出パイプラインを提案する。テストセットの誤用さえも、トレーニングのかなりの例を明らかにし、潜在的に不公平な比較を行う。ベンチマーク利用の明確なドキュメンテーションを促進するために,ベンチマーク透明性カードを提案する。
論文参考訳（メタデータ） (2024-04-29T16:05:36Z)
Investigating Data Contamination in Modern Benchmarks for Large Language Models [27.479260572913724]
近年の観測は、膨らませたベンチマークスコアとLLMの実際の性能の相違を裏付けている。我々は,オープンソースのLLMとプロプライエタリなLLMの両方に適した2つの手法を提案し,データ汚染について検討した。いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。
論文参考訳（メタデータ） (2023-11-16T11:03:04Z)
Rethinking Benchmark and Contamination for Language Models with Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文参考訳（メタデータ） (2023-11-08T17:35:20Z)
Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文参考訳（メタデータ） (2023-11-03T14:59:54Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)
A Review of Benchmarks for Visual Defect Detection in the Manufacturing Industry [63.52264764099532]
本稿では,既存のベンチマークを用いて,それらの特性とユースケースを比較し,公開する。産業メトリクスの要求と試験手順についての研究は、研究されたベンチマークに提示され、適用されます。
論文参考訳（メタデータ） (2023-05-05T07:44:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。