論文の概要: ProEval: Proactive Failure Discovery and Efficient Performance Estimation for Generative AI Evaluation
- arxiv url: http://arxiv.org/abs/2604.23099v1
- Date: Sat, 25 Apr 2026 01:33:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.154086
- Title: ProEval: Proactive Failure Discovery and Efficient Performance Estimation for Generative AI Evaluation
- Title(参考訳): ProEval: 生成AI評価のための積極的な障害発見と効率的なパフォーマンス評価
- Authors: Yizheng Huang, Wenjun Zeng, Aditi Kumaresan, Zi Wang,
- Abstract要約: ProEvalは、転送学習を利用して効率よくパフォーマンスを推定し、障害ケースを識別する、積極的な評価フレームワークである。
真理の1%以内の見積もりを達成するには8~65倍のサンプルが必要ですが、同時により多様な障害ケースを明らかにします。
- 参考スコア(独自算出の注目度): 17.57025670370604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating generative AI models is increasingly resource-intensive due to slow inference, expensive raters, and a rapidly growing landscape of models and benchmarks. We propose ProEval, a proactive evaluation framework that leverages transfer learning to efficiently estimate performance and identify failure cases. ProEval employs pre-trained Gaussian Processes (GPs) as surrogates for the performance score function, mapping model inputs to metrics such as the severity of errors or safety violations. By framing performance estimation as Bayesian quadrature (BQ) and failure discovery as superlevel set sampling, we develop uncertainty-aware decision strategies that actively select or synthesize highly informative inputs for testing. Theoretically, we prove that our pre-trained GP-based BQ estimator is unbiased and bounded. Empirically, extensive experiments on reasoning, safety alignment, and classification benchmarks demonstrate that ProEval is significantly more efficient than competitive baselines. It requires 8-65x fewer samples to achieve estimates within 1% of the ground truth, while simultaneously revealing more diverse failure cases under a stricter evaluation budget.
- Abstract(参考訳): 生成AIモデルの評価は、推論の遅さ、高価なレーダ、モデルとベンチマークの急速な成長により、リソース集約化が進んでいる。
本稿では、転送学習を利用して効率よく性能を推定し、故障事例を同定するプロアクティブ評価フレームワークProEvalを提案する。
ProEvalは、事前訓練されたガウスプロセス(GP)をパフォーマンススコア関数のサロゲートとして、モデルの入力をエラーの重大さや安全違反などのメトリクスにマッピングする。
ベイジアン・クオーチュア(BQ)としての性能評価と,超レベル集合サンプリングとしての故障発見を両立させることで,テストのための高情報入力を積極的に選択または合成する不確実性を考慮した意思決定戦略を開発する。
理論的には、事前訓練されたGPベースのBQ推定器が偏りなく有界であることを証明する。
理論的には、推論、安全性アライメント、分類ベンチマークに関する広範な実験は、ProEvalが競合するベースラインよりもはるかに効率的であることを示している。
より厳格な評価予算の下で、より多彩な障害ケースを明らかにしながら、基礎的な真実の1%以内の見積もりを達成するには、8~65倍のサンプルが必要である。
関連論文リスト
- P^2O: Joint Policy and Prompt Optimization [74.45293488495592]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムとして登場した。
プロンプト最適化とポリシー最適化を相乗化する新しいフレームワークであるP2Oを提案する。
論文 参考訳(メタデータ) (2026-03-23T12:08:47Z) - Observationally Informed Adaptive Causal Experimental Design [55.998153710215654]
本稿では,観測モデルを基礎的先行として活用する新たなパラダイムであるアクティブ残留学習を提案する。
このアプローチは、実験的な焦点を、目標因果量の学習から、観察バイアスの補正に必要な残差を効率的に推定するへとシフトさせる。
合成および半合成ベンチマークの実験は、R-Designがベースラインを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2026-03-04T06:52:37Z) - Towards Anytime-Valid Statistical Watermarking [63.02116925616554]
我々は、任意の時間価推論で最適なサンプリングを統一する、最初のe-value-based watermarking frameworkであるAnchored E-Watermarkingを開発した。
本フレームワークはサンプル効率を大幅に向上させ,最先端のベースラインに対して,検出に必要な平均トークン予算を13~15%削減する。
論文 参考訳(メタデータ) (2026-02-19T18:32:26Z) - STAR : Bridging Statistical and Agentic Reasoning for Large Model Performance Prediction [78.0692157478247]
本稿では,知識駆動型エージェント推論を用いて,データ駆動型静的予測を橋渡しするフレームワークSTARを提案する。
STARはスコアベースとランクベースの両方の基準線を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-12T16:30:07Z) - Fault-Tolerant Evaluation for Sample-Efficient Model Performance Estimators [13.227055178509524]
本稿では, バイアスと分散を考慮した耐障害性評価フレームワークを提案する。
我々は、$varepsilon$の適切なキャリブレーションにより、異なる分散状態の信頼性が保証されることを示す。
実世界のデータセットの実験は、我々のフレームワークが推定器の振る舞いに関する包括的で実行可能な洞察を提供することを示した。
論文 参考訳(メタデータ) (2026-02-06T22:14:46Z) - Anytime Safe PAC Efficient Reasoning [8.618430092165498]
大規模推論モデル(LRM)は複雑なタスクにおいて顕著な性能を示すが、高い計算コストと遅延に悩まされている。
本稿では,部分的フィードバック下での安全かつ効率的なオンライン推論を可能にする原理的手法であるBetting Probably Aough Correct (B-PAC)推論を提案する。
論文 参考訳(メタデータ) (2026-01-30T01:30:17Z) - Reward-Shifted Speculative Sampling Is An Efficient Test-Time Weak-to-Strong Aligner [24.152878302325508]
提案手法では,対象モデルが変わらず,ヒトの嗜好に沿うような,報酬シフト型投機的サンプリング(SSS)アルゴリズムを導入する。
本アルゴリズムは, 試験時間低強度アライメント実験において, 推定コストを著しく低減し, 優れた金報酬スコアを得る。
論文 参考訳(メタデータ) (2025-08-20T20:10:56Z) - Uncertainty-Driven Action Quality Assessment [11.958132175629368]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。
我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。
提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文 参考訳(メタデータ) (2022-07-29T07:21:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。