論文の概要: When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards
- arxiv url: http://arxiv.org/abs/2402.01781v2
- Date: Wed, 3 Jul 2024 11:20:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 20:04:00.538367
- Title: When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards
- Title(参考訳): ベンチマークがターゲットになるとき - 大規模言語モデルリーダーボードの感度を明らかにする
- Authors: Norah Alzahrani, Hisham Abdullah Alyahya, Yazeed Alnumay, Sultan Alrashed, Shaykhah Alsubaie, Yusef Almushaykeh, Faisal Mirza, Nouf Alotaibi, Nora Altwairesh, Areeb Alowisheq, M Saiful Bari, Haidar Khan,
- Abstract要約: 既存のリーダーボードでは,LLMの相対的な性能は細部まで非常に敏感であることが示されている。
一般的なマルチチョイス質問ベンチマーク(MMLUなど)では、選択の順序や解答の選択方法の変更など、ベンチマークに対する小さな摂動が最大8位までランクが変更されることが示されている。
- 参考スコア(独自算出の注目度): 9.751405901938895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) leaderboards based on benchmark rankings are regularly used to guide practitioners in model selection. Often, the published leaderboard rankings are taken at face value - we show this is a (potentially costly) mistake. Under existing leaderboards, the relative performance of LLMs is highly sensitive to (often minute) details. We show that for popular multiple-choice question benchmarks (e.g., MMLU), minor perturbations to the benchmark, such as changing the order of choices or the method of answer selection, result in changes in rankings up to 8 positions. We explain this phenomenon by conducting systematic experiments over three broad categories of benchmark perturbations and identifying the sources of this behavior. Our analysis results in several best-practice recommendations, including the advantage of a hybrid scoring method for answer selection. Our study highlights the dangers of relying on simple benchmark evaluations and charts the path for more robust evaluation schemes on the existing benchmarks. The code for this paper is available at https://github.com/National-Center-for-AI-Saudi-Arabia/lm-evaluation-harness.
- Abstract(参考訳): ベンチマークランキングに基づくLarge Language Model (LLM) のリーダーボードは、モデル選択の実践者をガイドするために定期的に使用される。
多くの場合、公表されたリーダーボードのランキングは、(潜在的にコストがかかる)間違いであることを示している。
既存のリーダボードの下では、LLMの相対的なパフォーマンスは(多くの場合、)詳細に対して非常に敏感です。
一般的なマルチチョイス質問ベンチマーク(例えばMMLU)では、選択の順序や回答の選択方法の変更など、ベンチマークに対する小さな摂動により、ランキングが最大8位まで変化することを示します。
ベンチマーク摂動の3つの幅広いカテゴリにわたる系統的な実験を行い、その挙動の源を同定することによって、この現象を説明する。
分析の結果,回答選択のためのハイブリッドスコアリング手法の利点など,いくつかのベストプラクティスの提言が得られた。
本研究は、単純なベンチマーク評価を頼りにすることの危険性を強調し、既存のベンチマークのより堅牢な評価手法の道筋を図示する。
この論文のコードはhttps://github.com/National-Center-for-AI-Saudi-Arabia/lm-evaluation-harnessで公開されている。
関連論文リスト
- MR-BEN: A Comprehensive Meta-Reasoning Benchmark for Large Language Models [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
メタ推論スキルを必要とするプロセスベースのベンチマークを提案する。
MR-BENは、人間の専門家から収集された5,975の質問からなる総合的なベンチマークである。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Benchmarking Cognitive Biases in Large Language Models as Evaluators [17.850224207182062]
大規模言語モデル(LLM)は、簡単なプロンプトと文脈内学習を備えた自動評価器として有効であることが示されている。
評価器としてのLCMの認知バイアスベンチマーク(CoBBLEr)を導入したランキングアウトプットの品質を評価する。
LLMはテキスト品質評価器であり、バイアスベンチマークに強い指標を示す。
論文 参考訳(メタデータ) (2023-09-29T06:53:10Z) - Vote'n'Rank: Revision of Benchmarking with Social Choice Theory [7.224599819499157]
本稿では,社会的選択論の原理に基づき,マルチタスクベンチマークにおけるシステムランキングの枠組みであるVote'n'Rankを提案する。
いくつかのMLサブフィールドにおいて,ベンチマークに関する新たな洞察を引き出すために,我々の手法を効率的に活用できることを実証する。
論文 参考訳(メタデータ) (2022-10-11T20:19:11Z) - Few-Shot Image Classification Benchmarks are Too Far From Reality: Build
Back Better with Semantic Task Sampling [4.855663359344748]
デンマークのFungi 2020データセットを用いたFew-Shot画像分類のための新しいベンチマークを提案する。
本ベンチマークでは,様々な微粒度を用いた多種多様な評価課題を提案する。
本実験は,タスクの難易度とクラス間の意味的類似度との間に相関関係を生じさせる。
論文 参考訳(メタデータ) (2022-05-10T20:25:43Z) - Integrating Rankings into Quantized Scores in Peer Review [61.27794774537103]
ピアレビューでは、レビュアーは通常、論文のスコアを提供するように求められます。
この問題を軽減するため、カンファレンスはレビュアーにレビューした論文のランキングを付加するように求め始めている。
このランキング情報を使用するための標準的な手順はなく、エリアチェアは異なる方法でそれを使用することができる。
我々は、ランキング情報をスコアに組み込むために、原則化されたアプローチを取る。
論文 参考訳(メタデータ) (2022-04-05T19:39:13Z) - Unbiased Pairwise Learning to Rank in Recommender Systems [4.058828240864671]
アルゴリズムをランク付けする偏見のない学習は、候補をアピールし、既に単一の分類ラベルを持つ多くのアプリケーションに適用されている。
本稿では,この課題に対処するための新しい非バイアス付きLTRアルゴリズムを提案する。
パブリックベンチマークデータセットと内部ライブトラフィックを用いた実験結果から,分類ラベルと連続ラベルのいずれにおいても提案手法の優れた結果が得られた。
論文 参考訳(メタデータ) (2021-11-25T06:04:59Z) - The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。
アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文 参考訳(メタデータ) (2021-07-14T21:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。