論文の概要: Cost-Efficient Estimation of General Abilities Across Benchmarks
- arxiv url: http://arxiv.org/abs/2604.01418v1
- Date: Wed, 01 Apr 2026 21:34:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.070348
- Title: Cost-Efficient Estimation of General Abilities Across Benchmarks
- Title(参考訳): ベンチマーク全体での一般能力のコスト効率評価
- Authors: Michael Krumdick, Adam Wiemerslage, Seth Ebner, Charles Lovering, Chris Tanner,
- Abstract要約: ベンチマークフレームワークの品質は、不明瞭なタスクにおけるモデルパフォーマンスの予測をいかに効率的に行えるかに基礎を置くべきだ、と我々は主張する。
このデータセットは、さまざまな予算制約の下で、巨大な多様なタスクのコレクション上で、異なるテクニックがモデルのパフォーマンスを予測する方法について、最初の分析を可能にする。
- 参考スコア(独自算出の注目度): 9.992289215879596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Thousands of diverse benchmarks have been developed to measure the quality of large language models (LLMs). Yet prior work has demonstrated that LLM performance is often sufficiently explained by a small set of latent factors, or abilities. This suggests the potential for more efficient and principled benchmarking, but it remains difficult to compare the quality of different methods. Motivated by predictive validity, we argue that the quality of a benchmarking framework should be grounded in how efficiently it enables the prediction of model performance on unseen tasks. To analyze this objective, we collect the "Wide-scale Item Level Dataset" (WILD), a dataset of item-model response pairs, comprising evaluations of 65 models on 109,564 unique items spanning 163 tasks drawn from 27 datasets. This dataset enables the first analysis of how different techniques can predict a model's performance on a large, diverse collection of unseen tasks under different budget constraints. We demonstrate that combining a modified multidimensional item response theory (IRT) model with adaptive item selection driven by optimal experimental design can predict performance on 112 held-out benchmark tasks with a mean absolute error (MAE) of less than 7%, and can do so after observing only 16 items. We further demonstrate that incorporating cost-aware discount factors into our selection criteria can reduce the total tokens needed to reach 7% MAE from 141,000 tokens to only 22,000, an 85% reduction in evaluation cost.
- Abstract(参考訳): 大規模言語モデル(LLM)の品質を測定するために、何千もの多様なベンチマークが開発されている。
しかし、以前の研究では、LCMのパフォーマンスは、小さな潜在要因や能力のセットによって十分に説明されていることが示されている。
これは、より効率的で原則化されたベンチマークの可能性を示しているが、異なるメソッドの品質を比較するのは難しい。
予測妥当性によって動機づけられたベンチマークフレームワークの品質は、不明瞭なタスクにおけるモデル性能の予測をいかに効率的に行えるかに基礎を置くべきであると論じる。
この目的を明らかにするため,27のデータセットから抽出された163個のタスクにまたがる109,564個のユニークな項目に対して,65個のモデルの評価を含む項目モデル対応ペアのデータセットであるWILD(Wide-scale Item Level Dataset)を収集した。
このデータセットは、さまざまな予算制約の下で、巨大な多様なタスクのコレクション上で、異なるテクニックがモデルのパフォーマンスを予測する方法について、最初の分析を可能にする。
最適化された多次元項目応答理論(IRT)モデルと最適実験設計による適応的項目選択を組み合わせることで,平均絶対誤差(MAE)が7%未満の112個のベンチマークタスクの性能を予測できることを示す。
さらに, 選択基準にコスト対応割引因子を組み込むことで, 141,000 トークンから 7% MAE に到達するのに要するトークン総数を 22,000 に削減し, 評価コストを 85% 削減できることを示した。
関連論文リスト
- Scales++: Compute Efficient Evaluation Subset Selection with Cognitive Scales Embeddings [23.9553588103042]
本稿では,タスク項目自体の本質的な特性に基づいて選択を行うことを論じ,サブセット選択をベンチマークする項目中心のアプローチを提案する。
Scales++は、競争力のある予測忠実性を達成しながら、事前選択コストを18倍以上削減します。
この項目中心のアプローチは,忠実度を著しく低下させることなく,より効率的なモデル評価を可能にすることを実証する。
論文 参考訳(メタデータ) (2025-10-30T11:28:58Z) - Exploring Instruction Data Quality for Explainable Image Quality Assessment [58.345719195248314]
説明可能なIQAのための指導調律データセットにおけるデータ品質の役割について検討する。
データセットのサブセットをランダムに選択することで、インストラクションチューニングデータセット全体のトレーニングよりも優れた結果が得られます。
本稿では,クラスタリング特徴抽出,クラスタクォータ割り当て,クラスタサンプリング戦略の3段階からなるクラスタリングに基づくデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-04T17:12:54Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - Error-driven Data-efficient Large Multimodal Model Tuning [35.20400815089843]
大規模マルチモーダルモデル (LMM) は、多くの学術ベンチマークで顕著な性能を示している。
本稿では,新しいタスクにジェネリックLMMを効率よく適応することを目的とした,エラー駆動型データ効率チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-20T08:07:11Z) - Ranked from Within: Ranking Large Multimodal Models Without Labels [73.96543593298426]
ソフトマックス分布から導かれる不確実性スコアは,様々なタスクにまたがるランキングモデルに対して,ロバストな基礎となることを示す。
これにより、ラベルのないデータに対するLMMのランク付けが容易になり、手動のアノテーションを必要とせずに、多様なターゲットドメインのモデルを選択するための実践的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Can We Predict Performance of Large Models across Vision-Language Tasks? [34.27319941609499]
本稿では,他のLVLMやタスクの観測結果に基づいて,未知のパフォーマンススコアを予測する新しいフレームワークを提案する。
実験では,未知のスコアの予測におけるPMFの精度,オーダリング評価における不確実性推定の信頼性,スパースデータ処理における拡張の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-14T03:00:12Z) - Data Efficient Evaluation of Large Language Models and Text-to-Image Models via Adaptive Sampling [3.7467864495337624]
SubLIMEはテキスト・ツー・イメージ・モデルのためのデータ効率評価フレームワークである。
我々のアプローチは、完全なデータセットと比較して統計的に整合したモデルランキングを保証する。
HEIMのリーダーボードを利用して、17の異なるベンチマークで25のテキスト・ツー・イメージモデルをカバーしています。
論文 参考訳(メタデータ) (2024-06-21T07:38:55Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Split-Ensemble: Efficient OOD-aware Ensemble via Task and Model Splitting [42.59091710435927]
不確実性推定は、機械学習モデルがアウト・オブ・ディストリビューション(OOD)入力を検出するために不可欠である。
本研究では,代替の Split-Ensemble 法を用いたOODデータや追加の推論コストを使わずに不確実性推定を改善する。
論文 参考訳(メタデータ) (2023-12-14T17:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。