論文の概要: Growing Pains: Extensible and Efficient LLM Benchmarking Via Fixed Parameter Calibration
- arxiv url: http://arxiv.org/abs/2604.12843v2
- Date: Wed, 15 Apr 2026 05:42:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 13:09:57.536128
- Title: Growing Pains: Extensible and Efficient LLM Benchmarking Via Fixed Parameter Calibration
- Title(参考訳): 成長痛: 固定パラメータ校正による拡張性と効率的なLCMベンチマーク
- Authors: Eliya Habba, Itay Itzhak, Asaf Yehudai, Yotam Perlitz, Elron Bandel, Michal Shmueli-Scheuer, Leshem Choshen, Gabriel Stanovsky,
- Abstract要約: 言語モデルとベンチマークの両方の迅速なリリースにより、データセットのすべてのモデルを評価するのにますますコストがかかります。
評価スイートに新しいベンチマークを校正するためのアンカーアイテムを用いた多次元項目応答理論(IRT)に基づくフレームワークを提案する。
提案手法は,データセットが時間とともに導入され,評価時に利用可能なデータセットのみに基づいてモデルが評価される,現実的な評価設定をサポートする。
- 参考スコア(独自算出の注目度): 33.18255969009679
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid release of both language models and benchmarks makes it increasingly costly to evaluate every model on every dataset. In practice, models are often evaluated on different samples, making scores difficult to compare across studies. To address this, we propose a framework based on multidimensional Item Response Theory (IRT) that uses anchor items to calibrate new benchmarks to the evaluation suite while holding previously calibrated item parameters fixed. Our approach supports a realistic evaluation setting in which datasets are introduced over time and models are evaluated only on the datasets available at the time of evaluation, while a fixed anchor set for each dataset is used so that results from different evaluation periods can be compared directly. In large-scale experiments on more than $400$ models, our framework predicts full-evaluation performance within 2-3 percentage points using only $100$ anchor questions per dataset, with Spearman $ρ\geq 0.9$ for ranking preservation, showing that it is possible to extend benchmark suites over time while preserving score comparability, at a constant evaluation cost per new dataset. Code available at https://github.com/eliyahabba/growing-pains
- Abstract(参考訳): 言語モデルとベンチマークの両方の迅速なリリースにより、各データセット上のすべてのモデルを評価するコストが増大する。
実際には、モデルはしばしば異なるサンプルで評価され、研究全体でスコアを比較するのが難しくなる。
そこで本研究では,アンカーアイテムを用いた多次元項目応答理論(IRT)に基づくフレームワークを提案し,事前校正項目パラメータを固定しつつ,新しいベンチマークを評価スイートに校正する。
提案手法は,データセットが時間とともに導入され,評価時に利用可能なデータセットのみにモデルが評価される現実的な評価設定をサポートし,各データセットに対する固定アンカーセットを用いて,異なる評価期間の結果を直接比較することができる。
400ドル以上のモデルに対する大規模な実験では,データセット毎のフル評価性能を2~3ポイント以内で予測し,Spearman $ρ\geq 0.9$でランキング保存を行い,スコアのコンパビリティを保ちながらベンチマークスイートを拡張可能であることを示す。
https://github.com/eliyahabba/ growing-painsで利用可能なコード
関連論文リスト
- IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation [85.56193980646981]
命令追従のための総合的メタ評価ベンチマークであるIF-RewardBenchを提案する。
各命令に対して、複数の応答間の全てのペアの選好を含む選好グラフを構築する。
IF-RewardBenchの実験は、現在の審査モデルに重大な欠陥を呈している。
論文 参考訳(メタデータ) (2026-03-05T02:21:17Z) - Causal LLM Routing: End-to-End Regret Minimization from Observational Data [3.3580884064577616]
LLMルーティングは、クエリ毎に最も適切なモデルを選択することを目的としている。
従来のアプローチでは、メトリクスを最初に予測し、モデルがこれらの見積に基づいて選択される、分離された戦略が一般的だった。
観測データから意思決定の後悔を最小化してルーティングポリシーを学習する因果的エンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T21:34:18Z) - Resampling Benchmark for Efficient Comprehensive Evaluation of Large Vision-Language Models [18.309464845180237]
大規模視覚言語モデル(VLM)の効率的な評価プロトコルを提案する。
完全なベンチマーク評価に匹敵する結果をもたらすサブセットを構築する。
既存のベンチマークにFPSを適用することで、全体的な評価結果との相関が改善される。
論文 参考訳(メタデータ) (2025-04-14T08:43:00Z) - YourBench: Easy Custom Evaluation Sets for Everyone [12.995134931278056]
YourBenchは、大規模言語モデル(LLM)を評価するための、新しいオープンソースのフレームワークである。
手動のアノテーションなしで、信頼性が高く、最新で、ドメインに適したベンチマークを安価に生成する。
我々はTemporaに基づくYourBenchライブラリ、Tempora-0325データセット、150k以上の質問応答ペア、およびすべての評価と推論トレースをリリースする。
論文 参考訳(メタデータ) (2025-04-02T15:40:24Z) - SCORE: Systematic COnsistency and Robustness Evaluation for Large Language Models [4.875712300661656]
本稿では,大規模言語モデルの非敵対的評価のための総合的なフレームワークであるSCORE ($mathbfS$ystematic $mathbfCO$nsistency and $mathbfR$obustness $mathbfE$valuationを提案する。
SCOREフレームワークは、様々な設定で同じベンチマークで繰り返しテストすることでモデルを評価し、精度と一貫性を現実的に見積もる。
論文 参考訳(メタデータ) (2025-02-28T19:27:29Z) - Benchmark Inflation: Revealing LLM Performance Gaps Using Retro-Holdouts [0.6282171844772422]
多くのLarge Language Models(LLM)のトレーニングデータは、テストデータによって汚染される。
公開ベンチマークスコアは必ずしもモデルプロパティを正確に評価するとは限らない。
論文 参考訳(メタデータ) (2024-10-11T20:46:56Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。
GEMv2は51言語で40のドキュメントデータセットをサポートする。
すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) (2022-06-22T17:52:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。