論文の概要: Cer-Eval: Certifiable and Cost-Efficient Evaluation Framework for LLMs
- arxiv url: http://arxiv.org/abs/2505.03814v1
- Date: Fri, 02 May 2025 17:05:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.836882
- Title: Cer-Eval: Certifiable and Cost-Efficient Evaluation Framework for LLMs
- Title(参考訳): Cer-Eval: LLMの認定・費用効率評価フレームワーク
- Authors: Ganghua Wang, Zhaorun Chen, Bo Li, Haifeng Xu,
- Abstract要約: 本稿では,大規模言語モデル(LLM)の検証と費用対効果評価フレームワークを提案する。
テストサンプル複雑性'を用いて、認定された評価に必要なテストポイント数を定量化し、テストサンプル複雑性の厳密な境界を導出します。
開発した理論に基づいて,LLM評価のコストを最小限に抑えるために,テストポイントを適応的に選択する分割型アルゴリズムCer-Evalを開発した。
- 参考スコア(独自算出の注目度): 29.764833226591012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As foundation models continue to scale, the size of trained models grows exponentially, presenting significant challenges for their evaluation. Current evaluation practices involve curating increasingly large datasets to assess the performance of large language models (LLMs). However, there is a lack of systematic analysis and guidance on determining the sufficiency of test data or selecting informative samples for evaluation. This paper introduces a certifiable and cost-efficient evaluation framework for LLMs. Our framework adapts to different evaluation objectives and outputs confidence intervals that contain true values with high probability. We use ``test sample complexity'' to quantify the number of test points needed for a certifiable evaluation and derive tight bounds on test sample complexity. Based on the developed theory, we develop a partition-based algorithm, named Cer-Eval, that adaptively selects test points to minimize the cost of LLM evaluation. Real-world experiments demonstrate that Cer-Eval can save 20% to 40% test points across various benchmarks, while maintaining an estimation error level comparable to the current evaluation process and providing a 95% confidence guarantee.
- Abstract(参考訳): 基礎モデルが拡大を続けるにつれて、訓練されたモデルのサイズは指数関数的に増加し、評価に重大な課題が提示される。
現在の評価手法では、大規模言語モデル(LLM)の性能を評価するために、ますます大きなデータセットをキュレートする。
しかし, テストデータの有効性を決定するための体系的分析やガイダンスの欠如や, 評価のための情報的サンプルの選択が欠如している。
本稿では,LCMの信頼性と費用対効果を評価するためのフレームワークを提案する。
本フレームワークは,評価対象に適応し,真値を含む信頼区間を高い確率で出力する。
私たちは 'test sample complexity'' を使って、認定された評価に必要なテストポイントの数を定量化し、テストサンプルの複雑さに厳密な境界を導出します。
開発した理論に基づいて,LLM評価のコストを最小限に抑えるために,テストポイントを適応的に選択する分割型アルゴリズムCer-Evalを開発した。
実世界の実験では、Cer-Evalは様々なベンチマークで20%から40%のテストポイントを節約でき、現在の評価プロセスに匹敵する推定誤差レベルを維持し、95%の信頼性保証を提供する。
関連論文リスト
- Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - Active Evaluation Acquisition for Efficient LLM Benchmarking [18.85604491151409]
学習ポリシを用いて,各ベンチマークからサンプルのサブセットを選択することにより,評価効率を向上させる戦略を検討する。
提案手法は,テスト例間の依存関係をモデル化し,残りの例に対する評価結果の正確な予測を可能にする。
実験の結果,提案手法は必要な評価プロンプトの数を大幅に削減することが示された。
論文 参考訳(メタデータ) (2024-10-08T12:08:46Z) - A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)のための最初の形式的確率的評価フレームワークを紹介する。
すなわち,モデルの出力分布に関する確率保証の高い新しい指標を提案する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文 参考訳(メタデータ) (2024-10-04T15:44:23Z) - FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of Large Language Models [36.273451767886726]
FreeEvalは、大規模言語モデルの信頼性と効率的な自動評価を可能にするために設計された、モジュール化されたスケーラブルなフレームワークである。
FreeEvalの統一された抽象化は、統合を単純化し、多様な評価方法論の透明性を改善します。
このフレームワークは、人間の評価やデータ汚染検出などのメタ評価技術を統合し、動的評価モジュールとともに、評価結果の公平性を高める。
論文 参考訳(メタデータ) (2024-04-09T04:17:51Z) - CheckEval: A reliable LLM-as-a-Judge framework for evaluating text generation using checklists [12.542045913426639]
CheckEvalはチェックリストベースの評価フレームワークで、バイナリ質問を通じて評価信頼性を向上させる。
CheckEvalは、評価モデル間の平均一致を0.45改善し、スコアのばらつきを低減します。
論文 参考訳(メタデータ) (2024-03-27T17:20:39Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。