論文の概要: Active Testing of Large Language Models via Approximate Neyman Allocation
- arxiv url: http://arxiv.org/abs/2605.10075v2
- Date: Mon, 18 May 2026 18:16:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 21:37:32.314122
- Title: Active Testing of Large Language Models via Approximate Neyman Allocation
- Title(参考訳): 近似Neymanアロケーションによる大規模言語モデルのアクティブテスト
- Authors: Zeli Liu, Jiancheng Zhang, Cong Liu, Yinglun Zhu,
- Abstract要約: 大規模言語モデル(LLM)は、事前トレーニングからテスト時間スケーリングまでの信頼性の高い評価を必要とする。
モデルスケールが拡大し、専門家アノテータが要求されるタスクが増加するにつれて、各評価に必要な計算コストとラベルのコストが急速に上昇する。
アクティブテストは、評価プールの小さいが有益なサブセットから評価結果を近似することで、このボトルネックを軽減することを目的としている。
- 参考スコア(独自算出の注目度): 13.289493017939469
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) require reliable evaluation from pre-training to test-time scaling, making evaluation a recurring rather than one-off cost. As model scales grow and target tasks increasingly demand expert annotators, both the compute and labeling costs needed for each evaluation rise rapidly. Active testing aims to alleviate this bottleneck by approximating the evaluation result from a small but informative subset of the evaluation pool. However, existing approaches primarily target classification and break down on generative tasks. We introduce a novel active testing algorithm tailored to generative tasks. Our method leverages semantic entropy from surrogate models to stratify the evaluation pool and then conducts approximate Neyman allocation based on signals extracted from these surrogates. Across multiple language and multimodal benchmarks and a range of surrogate-target model pairs, our method significantly improves on baselines and closely tracks Oracle-Neyman, delivering up to 28% MSE reduction over Uniform Sampling and an average of 22.9% budget savings.
- Abstract(参考訳): 大規模言語モデル(LLM)は、事前学習からテスト時間スケーリングまでの信頼性の高い評価を必要とし、単発コストではなく繰り返し評価を行う。
モデルスケールが拡大し、専門家アノテータが要求されるタスクが増加するにつれて、各評価に必要な計算コストとラベルのコストが急速に上昇する。
アクティブテストは、評価プールの小さいが有益なサブセットから評価結果を近似することで、このボトルネックを軽減することを目的としている。
しかし、既存のアプローチは主に分類と生成タスクの分解をターゲットにしている。
生成タスクに適した新しいアクティブテストアルゴリズムを提案する。
提案手法は,サロゲートモデルからのセマンティックエントロピーを利用して評価プールを成層化し,これらのサロゲートから抽出した信号に基づいて近似ナイマン割り当てを行う。
複数の言語とマルチモーダルのベンチマークと、サロゲートとターゲットのモデルペアの範囲で、我々の手法はベースラインを大幅に改善し、Oracle-Neymanを密に追跡し、Uniform Smplingよりも最大28%のMSE削減と平均22.9%の予算削減を実現した。
関連論文リスト
- Scales++: Compute Efficient Evaluation Subset Selection with Cognitive Scales Embeddings [23.9553588103042]
本稿では,タスク項目自体の本質的な特性に基づいて選択を行うことを論じ,サブセット選択をベンチマークする項目中心のアプローチを提案する。
Scales++は、競争力のある予測忠実性を達成しながら、事前選択コストを18倍以上削減します。
この項目中心のアプローチは,忠実度を著しく低下させることなく,より効率的なモデル評価を可能にすることを実証する。
論文 参考訳(メタデータ) (2025-10-30T11:28:58Z) - Foundational Automatic Evaluators: Scaling Multi-Task Generative Evaluator Training for Reasoning-Centric Domains [97.5573252172065]
自動推論評価器(FARE)のファミリーを,簡易な反復的リジェクションサンプリング制御による微調整手法で訓練する。
FARE-8Bはより大型のRL訓練評価器に挑戦し、FARE-20Bはオープンソース評価器の新しい標準となる。
推論時リランカとして、FARE-20BはMATH上でのニアオークル性能を達成する。
論文 参考訳(メタデータ) (2025-10-20T17:52:06Z) - SureMap: Simultaneous Mean Estimation for Single-Task and Multi-Task Disaggregated Evaluation [75.56845750400116]
分散評価(disaggregated evaluation) -- 異なるサブポピュレーション上での機械学習モデルのパフォーマンスの推定 - は、AIシステムのパフォーマンスとグループフェアネスを評価する上で、中核的なタスクである。
ブラックボックスモデルの評価において,マルチタスクとシングルタスクの双方に対して高い推定精度を持つSureMapを開発した。
提案手法は, ウェル・チョーゼンを用いた最大後部推定と, スタインの非バイアスリスク推定(SURE)によるクロスバリデーションフリーチューニングを併用する。
論文 参考訳(メタデータ) (2024-11-14T17:53:35Z) - On Speeding Up Language Model Evaluation [48.51924035873411]
我々はこの空間を探索するために$textitadaptive$アプローチを提案する。
我々は、マルチアームの包帯に頼り、次の(メソッド、バリデーションサンプル)ペアを順次識別して評価する。
典型的資源の5~15%のみを用いて,トップパフォーマンスの手法を同定できることを示す。
論文 参考訳(メタデータ) (2024-07-08T17:48:42Z) - Which Prompts Make The Difference? Data Prioritization For Efficient
Human LLM Evaluation [9.452326973655445]
計量に基づく手法は,必要なアノテーションの数を最小化することで,人間の評価の効率を向上させる。
提案手法は,広く用いられているモデルファミリに対して有効であり,非決定的(あるいは"tie")な結果のインスタンスを最大54%削減できることを示す。
この人的努力の潜在的な削減は、我々のアプローチを将来の大規模言語モデル評価における貴重な戦略として位置づけている。
論文 参考訳(メタデータ) (2023-10-22T21:48:51Z) - Active Surrogate Estimators: An Active Learning Approach to
Label-Efficient Model Evaluation [59.7305309038676]
モデル評価のためのアクティブサロゲート推定器(ASE)を提案する。
ASEは現在の最先端技術よりもラベル効率が高いことが分かりました。
論文 参考訳(メタデータ) (2022-02-14T17:15:18Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。