論文の概要: The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance?
- arxiv url: http://arxiv.org/abs/2412.03597v1
- Date: Mon, 02 Dec 2024 20:49:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:43:02.155245
- Title: The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance?
- Title(参考訳): 言語モデルベンチマークの脆弱性: 真のLLM性能を正確に反映しているか?
- Authors: Sourav Banerjee, Ayushi Agarwal, Eishkaran Singh,
- Abstract要約: 大きな言語モデル(LLM)は、真の言語理解と適応性を示すのに失敗しながら、標準化されたテストで優れている。
NLP評価フレームワークの系統的解析により,評価スペクトルにまたがる広範囲にわたる脆弱性が明らかになった。
我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価方法の土台を築いた。
- 参考スコア(独自算出の注目度): 1.3810901729134184
- License:
- Abstract: The pursuit of leaderboard rankings in Large Language Models (LLMs) has created a fundamental paradox: models excel at standardized tests while failing to demonstrate genuine language understanding and adaptability. Our systematic analysis of NLP evaluation frameworks reveals pervasive vulnerabilities across the evaluation spectrum, from basic metrics to complex benchmarks like GLUE and MMLU. These vulnerabilities manifest through benchmark exploitation, dataset contamination, and evaluation bias, creating a false perception of progress in language understanding capabilities. Through extensive review of contemporary evaluation approaches, we identify significant limitations in static benchmark designs, human evaluation protocols, and LLM-as-judge frameworks, all of which compromise the reliability of current performance assessments. As LLM capabilities evolve and existing benchmarks become redundant, we lay the groundwork for new evaluation methods that resist manipulation, minimize data contamination, and assess domain-specific tasks. This requires frameworks that are adapted dynamically, addressing current limitations and providing a more accurate reflection of LLM performance.
- Abstract(参考訳): 大きな言語モデル(LLMs)におけるリーダーボードランキングの追求は、基本的なパラドックスを生み出した。
NLP評価フレームワークの体系的解析により,基本的な指標からGLUEやMMLUのような複雑なベンチマークに至るまで,評価スペクトルの広範な脆弱性が明らかになった。
これらの脆弱性は、ベンチマークのエクスプロイト、データセットの汚染、評価バイアスを通じて現れ、言語理解能力の進歩に対する誤った認識を生み出します。
従来の評価手法を概観することにより,静的なベンチマーク設計,人体評価プロトコル,LCM-as-judgeフレームワークに重大な制約が認められ,いずれも現在の性能評価の信頼性を損なうことになる。
LLMの能力が向上し、既存のベンチマークが冗長になるにつれて、我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価手法の基盤となる。
これは動的に適応し、現在の制限に対処し、LLMのパフォーマンスをより正確に反映するフレームワークを必要とする。
関連論文リスト
- Unveiling Context-Aware Criteria in Self-Assessing LLMs [28.156979106994537]
本研究では, 文脈認識基準(SALC)を各評価インスタンスに適した動的知識と統合した, 自己評価 LLM フレームワークを提案する。
経験的評価は,本手法が既存のベースライン評価フレームワークを著しく上回っていることを示す。
また,AlpacaEval2リーダボードにおけるLCWin-Rateの改善を,選好データ生成に使用する場合の12%まで改善した。
論文 参考訳(メタデータ) (2024-10-28T21:18:49Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Beyond Benchmarking: A New Paradigm for Evaluation and Assessment of Large Language Models [7.529095331830944]
大規模言語モデル(LLM)を評価するための現在のベンチマークでは、コンテンツ制限の評価、不適切な更新、最適化ガイダンスの欠如などの問題がある。
本稿では,LLMのベンチマーク評価評価のための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-07-10T10:42:02Z) - FedEval-LLM: Federated Evaluation of Large Language Models on Downstream Tasks with Collective Wisdom [19.104850413126066]
大規模言語モデル(LLM)の協調学習のための有望なソリューションとして、フェデレートラーニング(FL)が登場した。
ラベル付きテストセットと類似度に基づくメトリクスに依存する従来の評価手法は、許容できる答えのサブセットのみをカバーする。
我々は、ラベル付きテストセットや外部ツールに依存することなく、下流タスクにおけるLCMの信頼性の高い性能測定を提供するFedEval-LLMを提案する。
論文 参考訳(メタデータ) (2024-04-18T15:46:26Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of Large Language Models [36.273451767886726]
FreeEvalは、大規模言語モデルの信頼性と効率的な自動評価を可能にするために設計された、モジュール化されたスケーラブルなフレームワークである。
FreeEvalの統一された抽象化は、統合を単純化し、多様な評価方法論の透明性を改善します。
このフレームワークは、人間の評価やデータ汚染検出などのメタ評価技術を統合し、動的評価モジュールとともに、評価結果の公平性を高める。
論文 参考訳(メタデータ) (2024-04-09T04:17:51Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - DyVal: Dynamic Evaluation of Large Language Models for Reasoning Tasks [112.66827096358857]
大規模言語モデル(LLM)の動的評価のためのプロトコルであるDyValを紹介する。
この枠組みに基づき、有向非巡回グラフの構造的利点を活用してグラフインフォームドDyValを構築する。
Flan-T5-large から GPT-3.5-Turbo および GPT-4 まで様々な LLM の評価を行った。
論文 参考訳(メタデータ) (2023-09-29T12:04:14Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。