論文の概要: QuickScope: Certifying Hard Questions in Dynamic LLM Benchmarks
- arxiv url: http://arxiv.org/abs/2604.17842v1
- Date: Mon, 20 Apr 2026 05:51:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.718206
- Title: QuickScope: Certifying Hard Questions in Dynamic LLM Benchmarks
- Title(参考訳): QuickScope: 動的LLMベンチマークで難しい質問を認定する
- Authors: Taylor Lundy, Narun K. Raman, Kevin Leyton-Brown,
- Abstract要約: 本稿では,動的ベンチマークにおける難問を特定するための新しい手法を提案する。
我々は,最近のベイズ最適化アルゴリズムであるCOUPを用いて,実用的なLLMパイプラインに適したアルゴリズムを提案する。
我々は、textttQuickScope$と呼ばれるメソッドが、標準ベースラインよりも効率的に、真に難しい質問を発見できることを示した。
- 参考スコア(独自算出の注目度): 13.068765059200276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM benchmarks are increasingly dynamic: instead of containing a fixed set of questions, they define templates and parameters that can generate an effectively unlimited number of question variants. This flexibility is valuable, but it makes evaluation expensive -- especially when the goal is not just determining an average score, but reliably identifying a model's weak spots. This paper introduces a new methodology for identifying hard questions in dynamic benchmarks. It leverages COUP, a recent Bayesian optimization algorithm (Graham, Velez & Leyton-Brown, 2026), after introducing several substantive modifications to make the algorithm suitable for practical LLM pipelines. We also wrap it in a tool that supports flexible choices of datasets and utility functions, enabling users to target the kinds of questions they care about (e.g., low-accuracy questions; questions that are unusually hard relative to their measured complexity). In experiments across a range of benchmarks, we show that our method, dubbed $\texttt{QuickScope}$, discovers truly difficult questions more sample efficiently than standard baselines, while also reducing false positives from noisy outcomes.
- Abstract(参考訳): LLMベンチマークはますます動的になり、固定された質問セットを含む代わりに、事実上無制限の質問変種を生成するテンプレートとパラメータを定義する。
この柔軟性は価値があるが、評価が高価になる。特にゴールは、平均的なスコアを決定するだけでなく、モデルの弱点を確実に特定することである。
本稿では,動的ベンチマークにおける難問を特定するための新しい手法を提案する。
これは最近のベイズ最適化アルゴリズムであるCOUP(Graham, Velez & Leyton-Brown, 2026)を活用し、実用的なLLMパイプラインに適したアルゴリズムとしていくつかの実質的な修正を導入した。
また、データセットとユーティリティ関数の柔軟な選択をサポートし、ユーザーが関心のある質問の種類(例えば、低い精度の質問、測定された複雑さに対して異常に難しい質問)をターゲットできるツールでラップします。
様々なベンチマーク実験において,本手法は,標準基準値よりも高効率な真に難しい質問を発見できるとともに,ノイズのある結果から偽陽性を低減できることを示した。
関連論文リスト
- SciML Agents: Write the Solver, Not the Solution [69.5021018644143]
敵の"ミスリーディング"問題の診断データセットと,1,000種類のODEタスクの大規模ベンチマークという,2つの新しいデータセットを紹介した。
オープンおよびクローズドソース LLM モデルについて, (i) 誘導型とガイド型, (ii) オフ・ザ・シェルフ対微調整型という2つの軸に沿って評価した。
予備的な結果は、慎重なプロンプトと微調整により、単純なODE問題を確実に解決できる特殊なLLMエージェントが得られることを示唆している。
論文 参考訳(メタデータ) (2025-09-12T02:53:57Z) - EXPLORA: Efficient Exemplar Subset Selection for Complex Reasoning [5.172620636569522]
大規模言語モデル (LLMs) は文脈内学習 (ICL) を可能にしており、LLMはいくつかの実演サンプル(例)を使って特定のタスクにおいて習熟度を取得できる。
ICLにおける重要な課題は、タスク特化(静的)またはテスト特化(動的)のいずれかが可能な最適例の選択である。
論文 参考訳(メタデータ) (2024-11-06T12:48:04Z) - BenchmarkCards: Standardized Documentation for Large Language Model Benchmarks [23.263430784766026]
大規模言語モデル(LLM)は多様なタスクを処理できる強力なツールである。
利用可能な多くのオプションを考えると、適切なベンチマークを見つけることは難しい。
直感的で検証可能なドキュメントフレームワークである textttBenchmarkCards を紹介します。
論文 参考訳(メタデータ) (2024-10-16T19:09:02Z) - LiveBench: A Challenging, Contamination-Limited LLM Benchmark [93.57775429120488]
最近の情報ソースから頻繁に更新された質問を含む最初のベンチマークであるLiveBenchをリリースする。
我々は、多くの著名なクローズドソースモデルと、0.5Bから405Bまでの数十のオープンソースモデルを評価した。
質問は毎月追加され、更新され、時間とともに新しいタスクとより難しいタスクをリリースします。
論文 参考訳(メタデータ) (2024-06-27T16:47:42Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。
提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-10-20T06:49:32Z) - Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning
and Coding with LLMs [60.58434523646137]
大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。
コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。
実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
論文 参考訳(メタデータ) (2023-05-19T17:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。