論文の概要: WiCkeD: A Simple Method to Make Multiple Choice Benchmarks More Challenging
- arxiv url: http://arxiv.org/abs/2502.18316v1
- Date: Tue, 25 Feb 2025 16:09:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 18:40:50.521445
- Title: WiCkeD: A Simple Method to Make Multiple Choice Benchmarks More Challenging
- Title(参考訳): WiCkeD: 複数のベンチマークをより複雑にするための簡単な方法
- Authors: Ahmed Elhady, Eneko Agirre, Mikel Artetxe,
- Abstract要約: 選択をランダムに "None of the above" に置き換えることで,既存のマルチ選択ベンチマークの複雑さを増大させる方法である WiCkeD を導入する。
我々は、WiCkeDが既存のベンチマークに自動的に適用可能であることを示しています。
- 参考スコア(独自算出の注目度): 39.97090144259728
- License:
- Abstract: We introduce WiCkeD, a simple method to increase the complexity of existing multiple-choice benchmarks by randomly replacing a choice with "None of the above", a method often used in educational tests. We show that WiCkeD can be automatically applied to any existing benchmark, making it more challenging. We apply WiCkeD to 6 popular benchmarks and use it to evaluate 18 open-weight LLMs. The performance of the models drops 12.1 points on average with respect to the original versions of the datasets. When using chain-of-thought on 3 MMLU datasets, the performance drop for the WiCkeD variant is similar to the one observed when using the LLMs directly, showing that WiCkeD is also challenging for models with enhanced reasoning abilities. WiCkeD also uncovers that some models are more sensitive to the extra reasoning required, providing additional information with respect to the original benchmarks. We relase our code and data at https://github.com/ahmedselhady/wicked-benchmarks.
- Abstract(参考訳): 我々は、既存のマルチ選択ベンチマークの複雑さを増大させる簡単な方法であるWiCkeDを導入し、選択をランダムに "None of the above" に置き換える。
既存のベンチマークにWiCkeDが自動的に適用可能であることを示しています。
我々は、WiCkeDを6つの人気のあるベンチマークに適用し、18個のオープンウェイトLCMを評価する。
モデルの性能は、データセットのオリジナルバージョンに対して平均12.1ポイント低下する。
3つのMMLUデータセット上でチェーン・オブ・シークレットを使用する場合、WiCkeD変種のパフォーマンス低下は、LLMを直接使用する際に観察されたものと類似しており、WiCkeDは推論能力の強化されたモデルにも挑戦的であることを示している。
WiCkeDはまた、いくつかのモデルが必要となる余分な推論に敏感であることを明らかにし、オリジナルのベンチマークに関する追加情報を提供した。
コードとデータはhttps://github.com/ahmedselhady/wicked-benchmarks.comで公開しています。
関連論文リスト
- Resurrecting saturated LLM benchmarks with adversarial encoding [0.0]
WMDP-bio(英語版)、GPQA(英語版)、MMLU(英語版)の3つのベンチマークで、ペアリング質問と回答オプションの追加について検討する。
より有能なモデルでは、これらのモデルがパフォーマンスを予測的に低下させ、本質的にベンチマークのパフォーマンスの天井を高くし、再び飽和させません。
論文 参考訳(メタデータ) (2025-02-10T18:07:09Z) - Listening to the Wise Few: Select-and-Copy Attention Heads for Multiple-Choice QA [19.78468832417275]
モデルの基礎となる知識を捕捉し、明らかにする新しいスコアを導入します。
これらの結果から,LLaMA2-7Bでは知識抽出が最大16%向上した。
モデルが正しい答えを明示的に知っている単純な合成データセットの精度は、ほぼ60%向上する。
論文 参考訳(メタデータ) (2024-10-03T09:53:48Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards [9.751405901938895]
既存のリーダーボードでは,LLMの相対的な性能は細部まで非常に敏感であることが示されている。
一般的なマルチチョイス質問ベンチマーク(MMLUなど)では、選択の順序や解答の選択方法の変更など、ベンチマークに対する小さな摂動が最大8位までランクが変更されることが示されている。
論文 参考訳(メタデータ) (2024-02-01T19:12:25Z) - Learning 3D Human Pose Estimation from Dozens of Datasets using a
Geometry-Aware Autoencoder to Bridge Between Skeleton Formats [80.12253291709673]
本稿では,アフィン結合型オートエンコーダ(ACAE)法を提案する。
このアプローチは、28人の人間のポーズデータセットを使って1つのモデルを監督する、極端なマルチデータセット体制にスケールします。
論文 参考訳(メタデータ) (2022-12-29T22:22:49Z) - CLUES: Few-Shot Learning Evaluation in Natural Language Understanding [81.63968985419982]
我々は,NLUモデルの少数ショット学習能力を評価するためのベンチマークであるCLUESを紹介する。
近年のモデルでは,大量のラベル付きデータにアクセスすると人的パフォーマンスが向上するが,ほとんどのタスクにおいて数ショット設定では,パフォーマンスに大きなギャップが生じることが実証された。
論文 参考訳(メタデータ) (2021-11-04T00:43:15Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。