論文の概要: Don't Make Your LLM an Evaluation Benchmark Cheater
- arxiv url: http://arxiv.org/abs/2311.01964v1
- Date: Fri, 3 Nov 2023 14:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 13:44:34.441589
- Title: Don't Make Your LLM an Evaluation Benchmark Cheater
- Title(参考訳): LLMを評価ベンチマークチータにするな
- Authors: Kun Zhou, Yutao Zhu, Zhipeng Chen, Wentong Chen, Wayne Xin Zhao, Xu
Chen, Yankai Lin, Ji-Rong Wen, Jiawei Han
- Abstract要約: 大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
- 参考スコア(独自算出の注目度): 142.24553056600627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models~(LLMs) have greatly advanced the frontiers of
artificial intelligence, attaining remarkable improvement in model capacity. To
assess the model performance, a typical approach is to construct evaluation
benchmarks for measuring the ability level of LLMs in different aspects.
Despite that a number of high-quality benchmarks have been released, the
concerns about the appropriate use of these benchmarks and the fair comparison
of different models are increasingly growing. Considering these concerns, in
this paper, we discuss the potential risk and impact of inappropriately using
evaluation benchmarks and misleadingly interpreting the evaluation results.
Specially, we focus on a special issue that would lead to inappropriate
evaluation, \ie \emph{benchmark leakage}, referring that the data related to
evaluation sets is occasionally used for model training. This phenomenon now
becomes more common since pre-training data is often prepared ahead of model
test. We conduct extensive experiments to study the effect of benchmark
leverage, and find that it can dramatically boost the evaluation results, which
would finally lead to an unreliable assessment of model performance. To improve
the use of existing evaluation benchmarks, we finally present several
guidelines for both LLM developers and benchmark maintainers. We hope this work
can draw attention to appropriate training and evaluation of LLMs.
- Abstract(参考訳): 大きな言語モデル~(llm)は、人工知能のフロンティアを大きく進歩させ、モデルの能力を大幅に向上させた。
モデル性能を評価するための典型的な手法は,LLMの能力レベルを異なる側面で測定するための評価ベンチマークを構築することである。
多くの高品質なベンチマークがリリースされているにもかかわらず、これらのベンチマークの適切な使用と異なるモデルの公正な比較に関する懸念はますます高まっている。
そこで,本研究では,評価ベンチマークを不適切に使用することによる潜在的なリスクと影響について考察し,評価結果を誤解して解釈する。
特に,評価セットに関連するデータがモデルトレーニングに時折使用されることに言及し,不適切な評価に繋がる特殊問題である \ie \emph{benchmark leak} に注目する。
この現象は、事前トレーニングデータがしばしばモデルテストの前に準備されるため、より一般的になる。
ベンチマークレバレッジの効果を研究するために広範な実験を行い、評価結果が劇的に向上し、最終的にモデル性能の信頼性が低下する可能性があることを突き止めた。
既存の評価ベンチマークの使用を改善するため、LLM開発者とベンチマークメンテナの両方にいくつかのガイドラインを提示する。
この研究がLLMの適切なトレーニングと評価に注目を集めることを願っている。
関連論文リスト
- Unveiling Context-Aware Criteria in Self-Assessing LLMs [28.156979106994537]
本研究では, 文脈認識基準(SALC)を各評価インスタンスに適した動的知識と統合した, 自己評価 LLM フレームワークを提案する。
経験的評価は,本手法が既存のベースライン評価フレームワークを著しく上回っていることを示す。
また,AlpacaEval2リーダボードにおけるLCWin-Rateの改善を,選好データ生成に使用する場合の12%まで改善した。
論文 参考訳(メタデータ) (2024-10-28T21:18:49Z) - RMB: Comprehensively Benchmarking Reward Models in LLM Alignment [44.84304822376291]
リワードモデル(RM)は、大きな言語モデル(LLM)のアライメントをガイドする。
我々は、49以上の実世界のシナリオをカバーする包括的なRMベンチマークであるRMBを提案する。
ベンチマークに基づいて、最先端のRMについて広範な分析を行う。
論文 参考訳(メタデータ) (2024-10-13T16:06:54Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - Efficient Benchmarking of Language Models [22.696230279151166]
本稿では、信頼性を損なうことなく、LM評価のコストをインテリジェントに削減する、効率的なベンチマーク問題を提案する。
HELMベンチマークをテストケースとして、異なるベンチマーク設計選択が計算-信頼性トレードオフにどのように影響するかを検討する。
本稿では,HELMベンチマークに適用した場合,ベンチマーク信頼性の低下を最小限に抑えながら,大幅なコスト削減を実現する評価アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-22T17:59:30Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。