論文の概要: C$^2$LEVA: Toward Comprehensive and Contamination-Free Language Model Evaluation
- arxiv url: http://arxiv.org/abs/2412.04947v2
- Date: Sun, 15 Dec 2024 07:31:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:51:01.504641
- Title: C$^2$LEVA: Toward Comprehensive and Contamination-Free Language Model Evaluation
- Title(参考訳): C$^2$LEVA:包括的で汚染のない言語モデル評価を目指して
- Authors: Yanyang Li, Tin Long Wong, Cheung To Hung, Jianqiao Zhao, Duo Zheng, Ka Wai Liu, Michael R. Lyu, Liwei Wang,
- Abstract要約: C$2$LEVAは、組織的な汚染防止を特徴とする包括的なベンチマークである。
15のオープンソースおよびプロプライエタリモデルの大規模評価は,C$2$LEVAの有効性を示している。
- 参考スコア(独自算出の注目度): 38.602098873778196
- License:
- Abstract: Recent advances in large language models (LLMs) have shown significant promise, yet their evaluation raises concerns, particularly regarding data contamination due to the lack of access to proprietary training data. To address this issue, we present C$^2$LEVA, a comprehensive bilingual benchmark featuring systematic contamination prevention. C$^2$LEVA firstly offers a holistic evaluation encompassing 22 tasks, each targeting a specific application or ability of LLMs, and secondly a trustworthy assessment due to our contamination-free tasks, ensured by a systematic contamination prevention strategy that fully automates test data renewal and enforces data protection during benchmark data release. Our large-scale evaluation of 15 open-source and proprietary models demonstrates the effectiveness of C$^2$LEVA.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は大きな可能性を秘めているが、その評価は、特にプロプライエタリなトレーニングデータへのアクセスの欠如によるデータ汚染に関する懸念を提起している。
この問題に対処するため,系統的な汚染防止を特徴とする総合的なバイリンガルベンチマークであるC$^2$LEVAを提案する。
C$2$LEVAは、まず、22のタスクを包含する総合的な評価を提供し、それぞれがLLMの特定の応用や能力をターゲットにしており、次に、テストデータ更新を完全に自動化し、ベンチマークデータリリース時にデータ保護を強制する、系統的な汚染防止戦略によって保証される、汚染のないタスクによる信頼できる評価を提供する。
15のオープンソースおよびプロプライエタリモデルの大規模評価は,C$2$LEVAの有効性を示す。
関連論文リスト
- PaCoST: Paired Confidence Significance Testing for Benchmark Contamination Detection in Large Language Models [41.772263447213234]
大規模言語モデル(LLM)は膨大な量のデータに基づいて訓練されることが知られており、意図的または故意によく使われるベンチマークのデータを含むことがある。
このインクルージョンは、モデルリーダーボードの不正な高いスコアにつながるが、現実のアプリケーションではパフォーマンスに失望する。
LLMのベンチマーク汚染を効果的に検出するPaired Confidence Significance TestingであるPaCoSTを紹介する。
論文 参考訳(メタデータ) (2024-06-26T13:12:40Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - How Much are Large Language Models Contaminated? A Comprehensive Survey and the LLMSanitize Library [68.10605098856087]
大規模言語モデル(LLM)は、ビジネスアプリケーションやAIの資金調達でますます利用されている。
LLMの性能は、データへの以前の露出のために、少なくとも部分的には高性能である可能性があるため、もはや信頼性が低い可能性がある。
我々はLLMSanitizeというオープンソースのPythonライブラリをリリースし、主要な汚染検知アルゴリズムを実装した。
論文 参考訳(メタデータ) (2024-03-31T14:32:02Z) - Generalization or Memorization: Data Contamination and Trustworthy Evaluation for Large Language Models [42.958880063727996]
CDD は LLM の出力分布による汚染検出の略である。
評価におけるデータ汚染の影響を軽減するため、TED:出力分布による信頼に値する評価も提示する。
論文 参考訳(メタデータ) (2024-02-24T23:54:41Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - LatestEval: Addressing Data Contamination in Language Model Evaluation
through Dynamic and Time-Sensitive Test Construction [21.553915781660905]
LatestEvalは、最新のテキストを活用して、非汚染読影理解評価を作成する自動手法である。
これは、最近のタイムウインドウで公開されたテキストのみを使用することでデータ汚染を回避し、事前訓練された言語モデルのトレーニングコーパスと重複しないようにする。
実験の結果,従来のベンチマークとは対照的に,言語モデルは LatestEval 上で無視可能な記憶行動を示すことがわかった。
論文 参考訳(メタデータ) (2023-12-19T17:16:43Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - NLP Evaluation in trouble: On the Need to Measure LLM Data Contamination
for each Benchmark [19.875954121100005]
我々は、注釈付きベンチマークを用いた自然言語処理(NLP)タスクの古典的評価が問題となっていると論じる。
最悪のデータ汚染は、Large Language Model(LLM)がベンチマークのテスト分割に基づいてトレーニングされ、同じベンチマークで評価された時に発生する。
このポジションペーパーは、異なるレベルのデータ汚染を定義し、コミュニティの努力を主張する。
論文 参考訳(メタデータ) (2023-10-27T09:48:29Z) - No Free Lunch in "Privacy for Free: How does Dataset Condensation Help
Privacy" [75.98836424725437]
データプライバシを保護するために設計された新しい手法は、慎重に精査する必要がある。
プライバシ保護の失敗は検出し難いが,プライバシ保護法を実装したシステムが攻撃された場合,破滅的な結果につながる可能性がある。
論文 参考訳(メタデータ) (2022-09-29T17:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。