論文の概要: Cost-Optimal Active AI Model Evaluation
- arxiv url: http://arxiv.org/abs/2506.07949v1
- Date: Mon, 09 Jun 2025 17:14:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.073817
- Title: Cost-Optimal Active AI Model Evaluation
- Title(参考訳): コスト最適アクティブAIモデル評価
- Authors: Anastasios N. Angelopoulos, Jacob Eisenstein, Jonathan Berant, Alekh Agarwal, Adam Fisch,
- Abstract要約: 生成AIシステムの開発には、継続的な評価、データ取得、アノテーションが必要である。
我々は、安価だがしばしば不正確で弱いレーダの使用を積極的にバランスさせる新しいコスト認識手法を開発した。
我々は、弱者と強者の間で所定のアノテーション予算を割り当てるためのコスト最適化政策のファミリーを導出する。
- 参考スコア(独自算出の注目度): 71.2069549142394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development lifecycle of generative AI systems requires continual evaluation, data acquisition, and annotation, which is costly in both resources and time. In practice, rapid iteration often makes it necessary to rely on synthetic annotation data because of the low cost, despite the potential for substantial bias. In this paper, we develop novel, cost-aware methods for actively balancing the use of a cheap, but often inaccurate, weak rater -- such as a model-based autorater that is designed to automatically assess the quality of generated content -- with a more expensive, but also more accurate, strong rater alternative such as a human. More specifically, the goal of our approach is to produce a low variance, unbiased estimate of the mean of the target "strong" rating, subject to some total annotation budget. Building on recent work in active and prediction-powered statistical inference, we derive a family of cost-optimal policies for allocating a given annotation budget between weak and strong raters so as to maximize statistical efficiency. Using synthetic and real-world data, we empirically characterize the conditions under which these policies yield improvements over prior methods. We find that, especially in tasks where there is high variability in the difficulty of examples, our policies can achieve the same estimation precision at a far lower total annotation budget than standard evaluation methods.
- Abstract(参考訳): 生成AIシステムの開発ライフサイクルには、継続的な評価、データ取得、アノテーションが必要であり、リソースと時間の両方でコストがかかる。
実際、迅速な反復は、かなりのバイアスの可能性があるにもかかわらず、低コストのため、しばしば合成アノテーションデータに頼る必要がある。
本稿では,より高価だが高精度で強力な利率の代替手段である人などのモデルベースオートレータのような,安価だが不正確で弱い利率器を積極的に利用するための,費用対効果の高い新しい手法を開発する。
より具体的には、本手法の目標は、目標の「強い」評価の平均の低ばらつき、偏りのない見積もりを、ある程度のアノテーション予算の下で作成することである。
近年の能動的・予測的統計的推論の成果に基づき、統計的効率を最大化するために、弱いレーダと強いレーダの間に所定のアノテーション予算を割り当てるためのコスト最適化政策のファミリーを導出する。
合成および実世界のデータを用いて、これらのポリシーが先行手法よりも改善をもたらす条件を実証的に特徴づける。
特に実例の難易度が高いタスクでは, 基準評価法よりもはるかに低い総アノテーション予算で, 同様の推定精度を達成できることがわかった。
関連論文リスト
- Adaptive Prediction-Powered AutoEval with Reliability and Efficiency Guarantees [36.407171992845456]
モデル評価における有限サンプル信頼性を保証する新しいフレームワークである textttR-AutoEval+ を提案する。
textttR-AutoEval+の重要な革新は、モデル評価変数の適応的な構成であり、合成データへの依存を動的に調整する。
論文 参考訳(メタデータ) (2025-05-24T11:53:29Z) - Can We Afford The Perfect Prompt? Balancing Cost and Accuracy with the Economical Prompting Index [5.714609806192087]
本稿では,正確度スコアとトークン消費を組み合わせた新しい指標であるEconomical Prompting Index(EPI)を紹介する。
本研究は, 思考の連鎖, 自己整合性, 思考の木の6つの先進的促進技術について検討した。
論文 参考訳(メタデータ) (2024-12-02T16:34:18Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Balanced Off-Policy Evaluation for Personalized Pricing [3.296526804364952]
我々は、特徴情報、歴史的価格決定、バイナリ実現需要からなるデータを持つパーソナライズされた価格問題を考える。
目標は、機能と価格をマッピングするパーソナライズされた価格ポリシーの、非政治的な評価を行うことだ。
Kallusのバランスの取れた政策評価フレームワークを基盤として、価格アプリケーションに適した新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-02-24T16:44:46Z) - Personalized Pricing with Invalid Instrumental Variables:
Identification, Estimation, and Policy Learning [5.372349090093469]
本研究は,インストゥルメンタル変数アプローチを用いて,内在性の下でのオフラインパーソナライズド価格について検討する。
Invalid iNsTrumental変数を用いたパーソナライズされたプライシングのための新しいポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2023-02-24T14:50:47Z) - Latent State Marginalization as a Low-cost Approach for Improving
Exploration [79.12247903178934]
我々はMaxEntフレームワークにおける潜在変数ポリシーの採用を提案する。
我々は、潜在変数ポリシーが、潜在信念状態を持つ世界モデルの下で自然に現れることを示す。
提案手法を連続制御タスクに対して実験的に検証し, 有効限界化がよりよい探索とより堅牢な訓練につながることを示した。
論文 参考訳(メタデータ) (2022-10-03T15:09:12Z) - Stream-based Active Learning with Verification Latency in Non-stationary
Environments [6.883906273999368]
本研究では, 有限, 時間可変, 未知の検証遅延が, 概念ドリフトの有無がALアプローチに与える影響について検討する。
PRopagateは、要求されたがまだ知られていないラベルを予測する遅延独立ユーティリティ推定器である。
提案手法が常に最先端の手法よりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-14T08:51:15Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。