論文の概要: Fault-Tolerant Evaluation for Sample-Efficient Model Performance Estimators
- arxiv url: http://arxiv.org/abs/2602.07226v1
- Date: Fri, 06 Feb 2026 22:14:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.518012
- Title: Fault-Tolerant Evaluation for Sample-Efficient Model Performance Estimators
- Title(参考訳): モデル性能推定器の耐故障性評価
- Authors: Zihan Zhu, Yanqiu Wu, Qiongkai Xu,
- Abstract要約: 本稿では, バイアスと分散を考慮した耐障害性評価フレームワークを提案する。
我々は、$varepsilon$の適切なキャリブレーションにより、異なる分散状態の信頼性が保証されることを示す。
実世界のデータセットの実験は、我々のフレームワークが推定器の振る舞いに関する包括的で実行可能な洞察を提供することを示した。
- 参考スコア(独自算出の注目度): 13.227055178509524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the era of Model-as-a-Service, organizations increasingly rely on third-party AI models for rapid deployment. However, the dynamic nature of emerging AI applications, the continual introduction of new datasets, and the growing number of models claiming superior performance make efficient and reliable validation of model services increasingly challenging. This motivates the development of sample-efficient performance estimators, which aim to estimate model performance by strategically selecting instances for labeling, thereby reducing annotation cost. Yet existing evaluation approaches often fail in low-variance settings: RMSE conflates bias and variance, masking persistent bias when variance is small, while p-value based tests become hypersensitive, rejecting adequate estimators for negligible deviations. To address this, we propose a fault-tolerant evaluation framework that integrates bias and variance considerations within an adjustable tolerance level ${\varepsilon}$, enabling the evaluation of performance estimators within practically acceptable error margins. We theoretically show that proper calibration of ${\varepsilon}$ ensures reliable evaluation across different variance regimes, and we further propose an algorithm that automatically optimizes and selects ${\varepsilon}$. Experiments on real-world datasets demonstrate that our framework provides comprehensive and actionable insights into estimator behavior.
- Abstract(参考訳): Model-as-a-Serviceの時代、組織は、迅速なデプロイメントのために、ますますサードパーティのAIモデルに依存しています。
しかし、新興AIアプリケーションの動的な性質、新しいデータセットの継続的な導入、優れたパフォーマンスを主張するモデルの増加は、モデルサービスの効率的かつ信頼性の高い検証をますます困難にしている。
これは,ラベル付けのインスタンスを戦略的に選択することでモデル性能を推定し,アノテーションのコストを削減することを目的とした,サンプル効率の高い性能推定器の開発を動機付けている。
RMSEはバイアスと分散を混同し、分散が小さいときに永続的なバイアスを隠蔽し、p値ベースのテストは過敏になり、無視可能な偏差に対する適切な推定器を拒絶する。
そこで本研究では,適応可能な許容許容レベル${\varepsilon}$にバイアスと分散を考慮した耐障害性評価フレームワークを提案する。
理論的には、${\varepsilon}$の適切なキャリブレーションは、異なる分散状態の信頼性を保証し、さらに${\varepsilon}$を自動的に最適化し選択するアルゴリズムを提案する。
実世界のデータセットの実験は、我々のフレームワークが推定器の振る舞いに関する包括的で実行可能な洞察を提供することを示した。
関連論文リスト
- ARISE: An Adaptive Resolution-Aware Metric for Test-Time Scaling Evaluation in Large Reasoning Models [102.4511331368587]
ARISE(Adaptive Resolution-Aware Scaling Evaluation)は、大規模推論モデルの試験時間スケーリングの有効性を評価するために設計された新しい尺度である。
我々は、様々な領域にわたる最先端の推論モデルを評価する包括的な実験を行う。
論文 参考訳(メタデータ) (2025-10-07T15:10:51Z) - KAIROS: Scalable Model-Agnostic Data Valuation [8.766103946679435]
KAIROSはスケーラブルでモデルに依存しない評価フレームワークで、各例に分散影響スコアを割り当てる。
KAIROSは、最先端のモデル-、Shapley-、Wassersteinベースのベースラインを精度とランタイムの両方で一貫して上回っている。
論文 参考訳(メタデータ) (2025-06-30T12:44:28Z) - Active operator learning with predictive uncertainty quantification for partial differential equations [6.519088943440059]
本研究では,訓練中に観測されたモデル誤差に校正された予測的不確実性推定を用いたディープオペレータネットワーク(DeepONets)の不確実性定量化手法を開発した。
不確実性フレームワークは、既存のアンサンブルアプローチとは対照的に、単一のネットワークを使用して動作し、トレーニングと推論中に最小限のオーバーヘッドを導入する。
一連の偏微分方程式(PDE)問題に対する不確実性を考慮したモデルの評価を行い、モデル予測が偏りがなく、非歪で、PDEに対する解を正確に再現していることを示す。
論文 参考訳(メタデータ) (2025-03-05T04:48:14Z) - Regression for the Mean: Auto-Evaluation and Inference with Few Labels through Post-hoc Regression [4.813376208491175]
Prediction Powered Inference (PPI)フレームワークは、大量の擬似ラベル付きデータと、実際の高品質なラベルを持つ小さなサンプルの両方を活用する方法を提供する。
ラベル付きデータが不足すると、PPI++メソッドは古典的推論よりもさらにパフォーマンスが良くなる。
本稿では, 頑健な回帰器を用いたPPIに基づく2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-19T17:17:46Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - High Precision Causal Model Evaluation with Conditional Randomization [10.23470075454725]
因果誤差を推定するための新しい低分散推定器(ペア推定器)を提案する。
モデルと真の実験効果の両方に同じIPW推定器を適用することにより、IPWによる分散を効果的にキャンセルし、より小さな分散を実現する。
提案手法は,IPW推定器自体の複雑な変更を伴わずに,条件付きランダム化設定における因果推論モデルを評価するための,単純かつ強力な解を提供する。
論文 参考訳(メタデータ) (2023-11-03T13:22:27Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。