論文の概要: Query-efficient model evaluation using cached responses
- arxiv url: http://arxiv.org/abs/2605.07096v1
- Date: Fri, 08 May 2026 01:24:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.712769
- Title: Query-efficient model evaluation using cached responses
- Title(参考訳): キャッシュ応答を用いたクエリ効率モデル評価
- Authors: Hayden Helm, Ben Johnson, Carey Priebe,
- Abstract要約: データカーネル・パースペクティブ・スペース(DKPS)に基づくキャッシュモデル応答を利用したベンチマーク性能の予測手法を提案する。
DKPSに基づく手法は,クエリ予算を大幅に削減したベースラインと同じ平均絶対誤差を達成できることを実証する。
提案手法は,参照モデルにおける適合度を最大化するクエリ群を選択するためのオフライン手法である。
- 参考スコア(独自算出の注目度): 0.2994962964425238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating a new model on an existing benchmark is often necessary to understand its behavior before deployment. For modern evaluation frameworks, generating and evaluating a response for all queries can be prohibitively expensive. In practice, responses from previously-evaluated models are often cached -- creating a potential opportunity to use this additional information to decrease the number of queries required to accurately evaluate a new model. In this paper, we introduce an approach for predicting benchmark performance that leverages cached model responses based on the Data Kernel Perspective Space (DKPS), a method for quantifying the relationship between models in the black-box setting. Theoretically, we show that DKPS-based methods are query-efficient under certain conditions. Empirically, we demonstrate that DKPS-based methods achieve the same mean absolute error as baselines with a substantially decreased query budget. We conclude by proposing an offline method for selecting a set of queries that maximizes the goodness-of-fit on reference models, improving prediction accuracy over random query selection.
- Abstract(参考訳): 既存のベンチマークで新しいモデルを評価することは、デプロイ前にその振る舞いを理解するためにしばしば必要である。
現代の評価フレームワークでは、すべてのクエリに対する応答の生成と評価は違法にコストがかかる。
実際には、事前に評価されたモデルからのレスポンスはキャッシュされることが多く、新しいモデルを正確に評価するために必要なクエリの数を減らすために、この追加情報を使用する機会が生まれる。
本稿では,ブラックボックス設定におけるモデル間の関係を定量化する手法であるData Kernel Perspective Space (DKPS)に基づいて,キャッシュモデル応答を利用したベンチマーク性能の予測手法を提案する。
理論的には、ある条件下ではDKPSベースの手法がクエリ効率が高いことを示す。
実験により,DKPSに基づく手法は,クエリ予算を大幅に削減したベースラインと同じ平均絶対誤差を達成できることを実証した。
提案手法は,参照モデルの適合性を最大化し,ランダムなクエリ選択よりも精度を向上する。
関連論文リスト
- TopBench: A Benchmark for Implicit Prediction and Reasoning over Tabular Question Answering [80.93487993878836]
現実世界のクエリの一般的なクラスは暗黙的に予測され、単に検索するのではなく、歴史的パターンから観測されていない回答を推測する必要がある。
これらのクエリには、潜在意図を認識することと、大規模テーブル上での信頼性の高い予測推論という2つの課題がある。
単点予測から意思決定,処理効果分析,複雑な推論に至るまで,4つのサブタスクにわたる779のサンプルからなるベンチマークであるTopBenchを紹介する。
論文 参考訳(メタデータ) (2026-04-30T16:22:51Z) - IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation [85.56193980646981]
命令追従のための総合的メタ評価ベンチマークであるIF-RewardBenchを提案する。
各命令に対して、複数の応答間の全てのペアの選好を含む選好グラフを構築する。
IF-RewardBenchの実験は、現在の審査モデルに重大な欠陥を呈している。
論文 参考訳(メタデータ) (2026-03-05T02:21:17Z) - LOCUS: Low-Dimensional Model Embeddings for Efficient Model Exploration, Comparison, and Selection [15.182368486530128]
LOCUSは,クエリ間の言語モデルの性能をコンパクトに表現する低次元ベクトル埋め込みを生成する手法である。
LOCUSは、クエリエンコーディングと評価スコアをエンコーダモデルを介して決定論的フォワードパスによって埋め込みを生成するアテンションベースのアプローチである。
我々は、モデル埋め込みとクエリエンコーディングを使用して、未知のクエリに対して最先端のルーティング精度を実現する正当性予測器を訓練する。
論文 参考訳(メタデータ) (2026-01-28T22:09:42Z) - CoLSE: A Lightweight and Robust Hybrid Learned Model for Single-Table Cardinality Estimation using Joint CDF [7.945011337356916]
カーディナリティ推定は、クエリ最適化の重要なコンポーネントである。
単点濃度推定のためのハイブリッド学習手法であるCoLSEを提案する。
実験の結果,CoLSEは精度,トレーニング時間,レイテンシ,モデルサイズにおいて良好なトレードオフを実現し,既存の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-12-14T10:08:20Z) - HuggingR$^{4}$: A Progressive Reasoning Framework for Discovering Optimal Model Companions [50.61510609116118]
HuggingR$4$は、Reasoning、Retrieval、Refinement、Reflectionを組み合わせて効率的にモデルを選択する新しいフレームワークである。
作業性率は92.03%、理性率は82.46%に達し、それぞれ26.51%、33.25%を超える。
論文 参考訳(メタデータ) (2025-11-24T03:13:45Z) - Scales++: Compute Efficient Evaluation Subset Selection with Cognitive Scales Embeddings [23.9553588103042]
本稿では,タスク項目自体の本質的な特性に基づいて選択を行うことを論じ,サブセット選択をベンチマークする項目中心のアプローチを提案する。
Scales++は、競争力のある予測忠実性を達成しながら、事前選択コストを18倍以上削減します。
この項目中心のアプローチは,忠実度を著しく低下させることなく,より効率的なモデル評価を可能にすることを実証する。
論文 参考訳(メタデータ) (2025-10-30T11:28:58Z) - Maximally-Informative Retrieval for State Space Model Generation [59.954191072042526]
テスト時に特定のクエリに対するモデル不確実性を最小化するために、Retrieval In-Context Optimization (RICO)を導入する。
文書検索に外部に依存した従来の検索強化生成(RAG)とは異なり,本手法はモデルから直接のフィードバックを利用する。
モデル勾配を用いた標準のトップ$kの検索は、最適化手順を近似し、残余損失への接続を提供することを示す。
論文 参考訳(メタデータ) (2025-06-13T18:08:54Z) - Value-Guided Search for Efficient Chain-of-Thought Reasoning [49.971608979012366]
本稿では,長文推論トレースを用いた値モデル学習の簡易かつ効率的な手法を提案する。
250万の推論トレースのデータセットを収集して、1.5Bトークンレベルのバリューモデルをトレーニングします。
最終多数決を重み付けしたブロックワイド値誘導検索(VGS)は,標準手法よりも優れたテスト時間スケーリングを実現する。
論文 参考訳(メタデータ) (2025-05-23T01:05:07Z) - Causal LLM Routing: End-to-End Regret Minimization from Observational Data [3.3580884064577616]
LLMルーティングは、クエリ毎に最も適切なモデルを選択することを目的としている。
従来のアプローチでは、メトリクスを最初に予測し、モデルがこれらの見積に基づいて選択される、分離された戦略が一般的だった。
観測データから意思決定の後悔を最小化してルーティングポリシーを学習する因果的エンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T21:34:18Z) - Probabilistic Case-based Reasoning for Open-World Knowledge Graph
Completion [59.549664231655726]
ケースベース推論(CBR)システムは,与えられた問題に類似した事例を検索することで,新たな問題を解決する。
本稿では,知識ベース(KB)の推論において,そのようなシステムが実現可能であることを示す。
提案手法は,KB内の類似エンティティからの推論パスを収集することにより,エンティティの属性を予測する。
論文 参考訳(メタデータ) (2020-10-07T17:48:12Z) - Monotonic Cardinality Estimation of Similarity Selection: A Deep
Learning Approach [22.958342743597044]
類似度選択の基数推定にディープラーニングを活用する可能性について検討する。
本稿では,任意のデータ型や距離関数に適用可能な,新規で汎用的な手法を提案する。
論文 参考訳(メタデータ) (2020-02-15T20:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。