論文の概要: CLEAN-EVAL: Clean Evaluation on Contaminated Large Language Models
- arxiv url: http://arxiv.org/abs/2311.09154v1
- Date: Wed, 15 Nov 2023 17:50:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 14:54:06.899321
- Title: CLEAN-EVAL: Clean Evaluation on Contaminated Large Language Models
- Title(参考訳): CLEAN-EVAL:汚染された大規模言語モデルのクリーンな評価
- Authors: Wenhong Zhu, Hongkun Hao, Zhiwei He, Yunze Song, Yumeng Zhang, Hanxu
Hu, Yiran Wei, Rui Wang, Hongyuan Lu
- Abstract要約: clean-Evalは、データ汚染の問題を緩和し、よりクリーンな方法でモデルを評価する。
clean-Eval は LLM を使用して、汚染されたデータを候補セットに逆変換する。
次にセマンティック検出器を使用して、生成された低品質サンプルをフィルタリングする。
ベスト候補は最終的にBLEURTスコアに基づいてこのセットから選択される。
- 参考スコア(独自算出の注目度): 12.832227070869829
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We are currently in an era of fierce competition among various large language
models (LLMs) continuously pushing the boundaries of benchmark performance.
However, genuinely assessing the capabilities of these LLMs has become a
challenging and critical issue due to potential data contamination, and it
wastes dozens of time and effort for researchers and engineers to download and
try those contaminated models. To save our precious time, we propose a novel
and useful method, Clean-Eval, which mitigates the issue of data contamination
and evaluates the LLMs in a cleaner manner. Clean-Eval employs an LLM to
paraphrase and back-translate the contaminated data into a candidate set,
generating expressions with the same meaning but in different surface forms. A
semantic detector is then used to filter the generated low-quality samples to
narrow down this candidate set. The best candidate is finally selected from
this set based on the BLEURT score. According to human assessment, this best
candidate is semantically similar to the original contamination data but
expressed differently. All candidates can form a new benchmark to evaluate the
model. Our experiments illustrate that Clean-Eval substantially restores the
actual evaluation results on contaminated LLMs under both few-shot learning and
fine-tuning scenarios.
- Abstract(参考訳): 現在、さまざまな大規模言語モデル(LLM)の激しい競争が、ベンチマークパフォーマンスの境界を継続的に押し付けています。
しかし、これらのLSMの能力を真に評価することは、潜在的なデータ汚染のために困難で重要な問題となり、研究者やエンジニアがそれらの汚染されたモデルをダウンロードして試すのに何十年もの時間と労力を浪費している。
貴重な時間を節約するために,データ汚染の問題を軽減し,LLMをよりクリーンに評価する,新規で有用な方法であるClean-Evalを提案する。
clean-Eval は LLM を用いて、汚染されたデータを候補セットに逆変換し、同じ意味を持つ式を生成する。
次にセマンティック検出器を使用して生成した低品質サンプルをフィルタリングし、候補セットを絞り込む。
ベスト候補は最終的にBLEURTスコアに基づいてこのセットから選択される。
人間の評価によれば、この最良の候補は元々の汚染データと意味的に似ているが、異なる表現をしている。
すべての候補はモデルを評価するために新しいベンチマークを作成できる。
本実験は, 汚染されたLLMの実際の評価結果を, 数発の学習シナリオと微調整シナリオの両方で大幅に復元することを示した。
関連論文リスト
- LiveBench: A Challenging, Contamination-Free LLM Benchmark [101.21578097087699]
最近の情報ソースから頻繁に更新された質問を含む最初のベンチマークであるLiveBenchをリリースする。
我々は、多くの著名なクローズドソースモデルと、0.5Bから110Bまでの数十のオープンソースモデルを評価した。
質問は毎月追加され、更新されるので、時間とともに新しいタスクとより難しいバージョンのタスクをリリースします。
論文 参考訳(メタデータ) (2024-06-27T16:47:42Z) - Data Contamination Can Cross Language Barriers [29.103517721155487]
大規模言語モデル(LLM)の開発における不透明さは、事前学習データにおける公開ベンチマークの汚染の可能性への懸念が高まっている。
まず, 電流検出手法を回避しつつ, LLMの性能を増大させる多言語性汚染について述べる。
本稿では,このような汚染を深く隠蔽する一般化に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T05:53:27Z) - Sample-Efficient Human Evaluation of Large Language Models via Maximum Discrepancy Competition [46.949604465227054]
そこで我々は,MAD(Maximum Discrepancy)コンペティションに基づく,サンプル効率のよい人的評価手法を提案する。
MAD は2つの LLM に適応した情報的かつ多様な命令群を自動的に選択する。
ペア比較の結果は、Eloレーティングシステムを用いてグローバルランキングに集約される。
論文 参考訳(メタデータ) (2024-04-10T01:26:24Z) - How Much are Large Language Models Contaminated? A Comprehensive Survey and the LLMSanitize Library [68.10605098856087]
大規模言語モデル(LLM)は、ビジネスアプリケーションやAIの資金調達でますます利用されている。
LLMの性能は、データへの以前の露出のために、少なくとも部分的には高性能である可能性があるため、もはや信頼性が低い可能性がある。
我々はLLMSanitizeというオープンソースのPythonライブラリをリリースし、主要な汚染検知アルゴリズムを実装した。
論文 参考訳(メタデータ) (2024-03-31T14:32:02Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Investigating Data Contamination in Modern Benchmarks for Large Language Models [27.479260572913724]
近年の観測は、膨らませたベンチマークスコアとLLMの実際の性能の相違を裏付けている。
我々は,オープンソースのLLMとプロプライエタリなLLMの両方に適した2つの手法を提案し,データ汚染について検討した。
いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。
論文 参考訳(メタデータ) (2023-11-16T11:03:04Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - NLP Evaluation in trouble: On the Need to Measure LLM Data Contamination
for each Benchmark [19.875954121100005]
我々は、注釈付きベンチマークを用いた自然言語処理(NLP)タスクの古典的評価が問題となっていると論じる。
最悪のデータ汚染は、Large Language Model(LLM)がベンチマークのテスト分割に基づいてトレーニングされ、同じベンチマークで評価された時に発生する。
このポジションペーパーは、異なるレベルのデータ汚染を定義し、コミュニティの努力を主張する。
論文 参考訳(メタデータ) (2023-10-27T09:48:29Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。