論文の概要: When Benchmarks are Targets: Revealing the Sensitivity of Large Language
Model Leaderboards
- arxiv url: http://arxiv.org/abs/2402.01781v1
- Date: Thu, 1 Feb 2024 19:12:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 02:04:43.397029
- Title: When Benchmarks are Targets: Revealing the Sensitivity of Large Language
Model Leaderboards
- Title(参考訳): ベンチマークがターゲットになるとき:大規模言語モデルリーダーボードの感度を明らかにする
- Authors: Norah Alzahrani, Hisham Abdullah Alyahya, Yazeed Alnumay, Sultan
Alrashed, Shaykhah Alsubaie, Yusef Almushaykeh, Faisal Mirza, Nouf Alotaibi,
Nora Altwairesh, Areeb Alowisheq, M Saiful Bari, Haidar Khan
- Abstract要約: 既存のリーダーボードでは,LLMの相対的な性能は細部まで非常に敏感であることが示されている。
提案手法では,選択順序や解答方法の変更など,人気の高い複数選択質問ベンチマーク(MMLUなど)に対して,最大8位までランクが変更されることが示されている。
- 参考スコア(独自算出の注目度): 10.013410319420046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) leaderboards based on benchmark rankings are
regularly used to guide practitioners in model selection. Often, the published
leaderboard rankings are taken at face value - we show this is a (potentially
costly) mistake. Under existing leaderboards, the relative performance of LLMs
is highly sensitive to (often minute) details. We show that for popular
multiple choice question benchmarks (e.g. MMLU) minor perturbations to the
benchmark, such as changing the order of choices or the method of answer
selection, result in changes in rankings up to 8 positions. We explain this
phenomenon by conducting systematic experiments over three broad categories of
benchmark perturbations and identifying the sources of this behavior. Our
analysis results in several best-practice recommendations, including the
advantage of a hybrid scoring method for answer selection. Our study highlights
the dangers of relying on simple benchmark evaluations and charts the path for
more robust evaluation schemes on the existing benchmarks.
- Abstract(参考訳): ベンチマークランキングに基づくLarge Language Model (LLM) のリーダーボードは、モデル選択の実践者をガイドするために定期的に使用される。
多くの場合、公表されたリーダーボードのランキングは、(潜在的にコストがかかる)間違いであることを示している。
既存のリーダボードの下では、LLMの相対的なパフォーマンスは(多くの場合、)詳細に対して非常に敏感です。
提案手法では,選択順序や解答方法の変更など,人気の高い複数選択質問ベンチマーク(MMLUなど)に対して,最大8位までランクが変更されることが示されている。
ベンチマーク摂動の3つの幅広いカテゴリについて系統的な実験を行い,その発生源を同定することで,この現象を説明する。
分析の結果,ハイブリッドスコアリングによる回答選択の利点など,いくつかのベストプラクティスが得られた。
本研究は、単純なベンチマーク評価に依存する危険性を強調し、既存のベンチマークのより堅牢な評価手法の道筋を示す。
関連論文リスト
- Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Efficient Benchmarking of Language Models [23.45140610835939]
本稿では、信頼性を損なうことなく、LM評価の計算コストをインテリジェントに削減する効率的なベンチマーク問題を提案する。
HELMベンチマークをテストケースとして、異なるベンチマーク設計選択が計算-信頼性のトレードオフにどのように影響するかを検討する。
論文 参考訳(メタデータ) (2023-08-22T17:59:30Z) - Self-Improving-Leaderboard(SIL): A Call for Real-World Centric Natural
Language Processing Leaderboards [5.919860270977038]
与えられたテストデータセットの評価は、モデルの多くのパフォーマンス指標の1つにすぎない、と我々は主張する。
本稿では,現在のリーダーボードシステムにおけるこれらの課題に対処する,新しいリーダーボードシステムパラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-20T06:13:03Z) - Vote'n'Rank: Revision of Benchmarking with Social Choice Theory [7.224599819499157]
本稿では,社会的選択論の原理に基づき,マルチタスクベンチマークにおけるシステムランキングの枠組みであるVote'n'Rankを提案する。
いくつかのMLサブフィールドにおいて,ベンチマークに関する新たな洞察を引き出すために,我々の手法を効率的に活用できることを実証する。
論文 参考訳(メタデータ) (2022-10-11T20:19:11Z) - Unbiased Pairwise Learning to Rank in Recommender Systems [4.058828240864671]
アルゴリズムをランク付けする偏見のない学習は、候補をアピールし、既に単一の分類ラベルを持つ多くのアプリケーションに適用されている。
本稿では,この課題に対処するための新しい非バイアス付きLTRアルゴリズムを提案する。
パブリックベンチマークデータセットと内部ライブトラフィックを用いた実験結果から,分類ラベルと連続ラベルのいずれにおいても提案手法の優れた結果が得られた。
論文 参考訳(メタデータ) (2021-11-25T06:04:59Z) - The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。
アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文 参考訳(メタデータ) (2021-07-14T21:08:30Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。