論文の概要: Scales++: Compute Efficient Evaluation Subset Selection with Cognitive Scales Embeddings
- arxiv url: http://arxiv.org/abs/2510.26384v1
- Date: Thu, 30 Oct 2025 11:28:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.781074
- Title: Scales++: Compute Efficient Evaluation Subset Selection with Cognitive Scales Embeddings
- Title(参考訳): Scales++:認知尺度埋め込みを用いた計算効率の良い評価サブセット選択
- Authors: Andrew M. Bean, Nabeel Seedat, Shengzhuang Chen, Jonathan Richard Schwarz,
- Abstract要約: 本稿では,タスク項目自体の本質的な特性に基づいて選択を行うことを論じ,サブセット選択をベンチマークする項目中心のアプローチを提案する。
Scales++は、競争力のある予測忠実性を達成しながら、事前選択コストを18倍以上削減します。
この項目中心のアプローチは,忠実度を著しく低下させることなく,より効率的なモデル評価を可能にすることを実証する。
- 参考スコア(独自算出の注目度): 23.9553588103042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prohibitive cost of evaluating large language models (LLMs) on comprehensive benchmarks necessitates the creation of small yet representative data subsets (i.e., tiny benchmarks) that enable efficient assessment while retaining predictive fidelity. Current methods for this task operate under a model-centric paradigm, selecting benchmarking items based on the collective performance of existing models. Such approaches are limited by large upfront costs, an inability to immediately handle new benchmarks (`cold-start'), and the fragile assumption that future models will share the failure patterns of their predecessors. In this work, we challenge this paradigm and propose a item-centric approach to benchmark subset selection, arguing that selection should be based on the intrinsic properties of the task items themselves, rather than on model-specific failure patterns. We instantiate this item-centric efficient benchmarking approach via a novel method, Scales++, where data selection is based on the cognitive demands of the benchmark samples. Empirically, we show Scales++ reduces the upfront selection cost by over 18x while achieving competitive predictive fidelity. On the Open LLM Leaderboard, using just a 0.5\% data subset, we predict full benchmark scores with a 2.9% mean absolute error. We demonstrate that this item-centric approach enables more efficient model evaluation without significant fidelity degradation, while also providing better cold-start performance and more interpretable benchmarking.
- Abstract(参考訳): 包括的なベンチマークで大きな言語モデル(LLM)を評価することの禁止コストは、予測忠実性を保ちながら効率的な評価を可能にする、小さいが代表的なデータサブセット(つまり、小さなベンチマーク)を作成する必要がある。
このタスクの現在のメソッドはモデル中心のパラダイムの下で動作し、既存のモデルの集合的パフォーマンスに基づいてベンチマーク項目を選択する。
このようなアプローチは、大きな事前コスト、新しいベンチマーク(‘cold-start’)をすぐに処理できないこと、将来のモデルが前者の失敗パターンを共有するという脆弱な仮定によって制限される。
本稿では,このパラダイムに挑戦し,モデル固有の障害パターンではなく,タスク項目自体の本質的な特性に基づいて選択を行うことを論じ,サブセット選択をベンチマークする項目中心のアプローチを提案する。
我々は、この項目中心の効率的なベンチマーク手法を、ベンチマークサンプルの認知的要求に基づいてデータ選択を行う新しい方法であるScales++によってインスタンス化する。
経験的に、Scales++は事前選択コストを18倍以上削減し、競争力のある予測忠実性を実現しています。
Open LLM Leaderboardでは、0.5 %のデータサブセットを使用して、2.9%の平均的な絶対誤差で完全なベンチマークスコアを予測する。
この項目中心のアプローチは、より効率的なモデル評価を可能にすると同時に、より優れたコールドスタート性能とより解釈可能なベンチマークを実現することを実証する。
関連論文リスト
- How Benchmark Prediction from Fewer Data Misses the Mark [18.693874781163657]
ベンチマーク予測は、評価ポイントの小さなサブセットを選択し、そのサブセットからベンチマーク全体のパフォーマンスを予測することを目的としている。
本論文では,19種類のベンチマークにおいて,11種類のベンチマーク予測手法の長所と短所を体系的に評価する。
論文 参考訳(メタデータ) (2025-06-09T11:50:41Z) - How to Select Datapoints for Efficient Human Evaluation of NLG Models? [57.60407340254572]
我々は,人間の評価に最も有用なデータポイントを得るために,セレクタスイートを開発し,分析する。
本研究では,自動測定値の分散に基づくセレクタ,モデル出力の多様性,項目応答理論がランダム選択より優れていることを示す。
特に,情報源に基づく推定手法を導入し,情報源のテキストに基づいて人体評価に有用な項目を推定する。
論文 参考訳(メタデータ) (2025-01-30T10:33:26Z) - Exploring Query Efficient Data Generation towards Data-free Model Stealing in Hard Label Setting [38.755154033324374]
データフリーモデルは、ターゲットモデルの構造、パラメータ、トレーニングデータにアクセスすることなく、ターゲットモデルの機能を代替モデルに複製する。
本稿では Query Efficient Data Generation (textbfQEDG) と呼ばれる新しいデータフリーモデルステーリング手法を提案する。
対象モデルの決定境界に密接に一様に整合する十分なサンプルの生成を保証するために、2つの異なる損失関数を導入する。
論文 参考訳(メタデータ) (2024-12-18T03:03:15Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Data Efficient Evaluation of Large Language Models and Text-to-Image Models via Adaptive Sampling [3.7467864495337624]
SubLIMEはテキスト・ツー・イメージ・モデルのためのデータ効率評価フレームワークである。
我々のアプローチは、完全なデータセットと比較して統計的に整合したモデルランキングを保証する。
HEIMのリーダーボードを利用して、17の異なるベンチマークで25のテキスト・ツー・イメージモデルをカバーしています。
論文 参考訳(メタデータ) (2024-06-21T07:38:55Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Evaluating Representations with Readout Model Switching [19.907607374144167]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。