論文の概要: The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance?
- arxiv url: http://arxiv.org/abs/2412.03597v1
- Date: Mon, 02 Dec 2024 20:49:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:43:02.155245
- Title: The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance?
- Title(参考訳): 言語モデルベンチマークの脆弱性: 真のLLM性能を正確に反映しているか?
- Authors: Sourav Banerjee, Ayushi Agarwal, Eishkaran Singh,
- Abstract要約: 大きな言語モデル(LLM)は、真の言語理解と適応性を示すのに失敗しながら、標準化されたテストで優れている。
NLP評価フレームワークの系統的解析により,評価スペクトルにまたがる広範囲にわたる脆弱性が明らかになった。
我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価方法の土台を築いた。
- 参考スコア(独自算出の注目度): 1.3810901729134184
- License:
- Abstract: The pursuit of leaderboard rankings in Large Language Models (LLMs) has created a fundamental paradox: models excel at standardized tests while failing to demonstrate genuine language understanding and adaptability. Our systematic analysis of NLP evaluation frameworks reveals pervasive vulnerabilities across the evaluation spectrum, from basic metrics to complex benchmarks like GLUE and MMLU. These vulnerabilities manifest through benchmark exploitation, dataset contamination, and evaluation bias, creating a false perception of progress in language understanding capabilities. Through extensive review of contemporary evaluation approaches, we identify significant limitations in static benchmark designs, human evaluation protocols, and LLM-as-judge frameworks, all of which compromise the reliability of current performance assessments. As LLM capabilities evolve and existing benchmarks become redundant, we lay the groundwork for new evaluation methods that resist manipulation, minimize data contamination, and assess domain-specific tasks. This requires frameworks that are adapted dynamically, addressing current limitations and providing a more accurate reflection of LLM performance.
- Abstract(参考訳): 大きな言語モデル(LLMs)におけるリーダーボードランキングの追求は、基本的なパラドックスを生み出した。
NLP評価フレームワークの体系的解析により,基本的な指標からGLUEやMMLUのような複雑なベンチマークに至るまで,評価スペクトルの広範な脆弱性が明らかになった。
これらの脆弱性は、ベンチマークのエクスプロイト、データセットの汚染、評価バイアスを通じて現れ、言語理解能力の進歩に対する誤った認識を生み出します。
従来の評価手法を概観することにより,静的なベンチマーク設計,人体評価プロトコル,LCM-as-judgeフレームワークに重大な制約が認められ,いずれも現在の性能評価の信頼性を損なうことになる。
LLMの能力が向上し、既存のベンチマークが冗長になるにつれて、我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価手法の基盤となる。
これは動的に適応し、現在の制限に対処し、LLMのパフォーマンスをより正確に反映するフレームワークを必要とする。
関連論文リスト
- Line Goes Up? Inherent Limitations of Benchmarks for Evaluating Large Language Models [0.0]
私は、ベンチマークのパラダイムに固有の制限が、認知タスクに対する一般的な能力の指標として、ベンチマークのパフォーマンスを非常に適さないと論じます。
総合LLM認知能力の信頼性指標としてベンチマーク性能を用いるべきではないと結論づける。
論文 参考訳(メタデータ) (2025-02-20T07:13:29Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - Training an LLM-as-a-Judge Model: Pipeline, Insights, and Practical Lessons [9.954960702259918]
本稿では,文脈認識評価を行うLLM(en:en:en:en:en:en:en:en:LLMs)ジャッジであるThemisを紹介する。
Themisの開発パイプラインの概要を概観し、シナリオに依存した評価プロンプトを強調します。
メタ評価のための人間ラベル付きベンチマークを2つ導入し、テミスが人間の嗜好を経済的に高度に調整できることを実証した。
論文 参考訳(メタデータ) (2025-02-05T08:35:55Z) - RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.861013614500024]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。
通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文 参考訳(メタデータ) (2025-01-24T13:48:10Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of Large Language Models [36.273451767886726]
FreeEvalは、大規模言語モデルの信頼性と効率的な自動評価を可能にするために設計された、モジュール化されたスケーラブルなフレームワークである。
FreeEvalの統一された抽象化は、統合を単純化し、多様な評価方法論の透明性を改善します。
このフレームワークは、人間の評価やデータ汚染検出などのメタ評価技術を統合し、動的評価モジュールとともに、評価結果の公平性を高める。
論文 参考訳(メタデータ) (2024-04-09T04:17:51Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - DyVal: Dynamic Evaluation of Large Language Models for Reasoning Tasks [112.66827096358857]
大規模言語モデル(LLM)の動的評価のためのプロトコルであるDyValを紹介する。
この枠組みに基づき、有向非巡回グラフの構造的利点を活用してグラフインフォームドDyValを構築する。
Flan-T5-large から GPT-3.5-Turbo および GPT-4 まで様々な LLM の評価を行った。
論文 参考訳(メタデータ) (2023-09-29T12:04:14Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。