論文の概要: Adaptive Prediction-Powered AutoEval with Reliability and Efficiency Guarantees
- arxiv url: http://arxiv.org/abs/2505.18659v1
- Date: Sat, 24 May 2025 11:53:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.574962
- Title: Adaptive Prediction-Powered AutoEval with Reliability and Efficiency Guarantees
- Title(参考訳): 信頼性と効率保証を考慮した適応予測型自動方程式
- Authors: Sangwoo Park, Matteo Zecchin, Osvaldo Simeone,
- Abstract要約: モデル評価における有限サンプル信頼性を保証する新しいフレームワークである textttR-AutoEval+ を提案する。
textttR-AutoEval+の重要な革新は、モデル評価変数の適応的な構成であり、合成データへの依存を動的に調整する。
- 参考スコア(独自算出の注目度): 36.407171992845456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Selecting artificial intelligence (AI) models, such as large language models (LLMs), from multiple candidates requires accurate performance estimation. This is ideally achieved through empirical evaluations involving abundant real-world data. However, such evaluations are costly and impractical at scale. To address this challenge, autoevaluation methods leverage synthetic data produced by automated evaluators, such as LLMs-as-judges, reducing variance but potentially introducing bias. Recent approaches have employed semi-supervised prediction-powered inference (\texttt{PPI}) to correct for the bias of autoevaluators. However, the use of autoevaluators may lead in practice to a degradation in sample efficiency compared to conventional methods using only real-world data. In this paper, we propose \texttt{R-AutoEval+}, a novel framework that provides finite-sample reliability guarantees on the model evaluation, while also ensuring an enhanced (or at least no worse) sample efficiency compared to conventional methods. The key innovation of \texttt{R-AutoEval+} is an adaptive construction of the model evaluation variable, which dynamically tunes its reliance on synthetic data, reverting to conventional methods when the autoevaluator is insufficiently accurate. Experiments on the use of LLMs-as-judges for the optimization of quantization settings for the weights of an LLM, and for prompt design in LLMs confirm the reliability and efficiency of \texttt{R-AutoEval+}.
- Abstract(参考訳): 複数の候補から大規模言語モデル(LLM)などの人工知能(AI)モデルを選択するには、正確な性能推定が必要である。
これは、豊富な実世界のデータを含む経験的評価によって、理想的に達成される。
しかし、このような評価は費用がかかり、大規模には実用的ではない。
この課題に対処するために、自動評価手法は、LSMs-as-judgesのような自動評価器によって生成される合成データを活用する。
近年,半教師付き予測型推論 (\texttt{PPI}) を用いて自動評価器のバイアスを補正している。
しかし, 自動評価器の使用は, 実世界のデータのみを用いた従来の手法と比較して, サンプル効率の低下につながる可能性がある。
本稿では,モデル評価における有限サンプル信頼性を保証する新しいフレームワークである‘texttt{R-AutoEval+} を提案する。
texttt{R-AutoEval+} の重要な革新は、モデル評価変数の適応的な構成であり、自動評価器が不十分な場合に従来の手法に回帰して、合成データへの依存を動的に調整する。
LLMの重みに対する量子化設定の最適化のためのLLM-as-judgesの使用実験と、LLMの迅速な設計により \texttt{R-AutoEval+} の信頼性と効率性が確認された。
関連論文リスト
- Autonomous Evaluation of LLMs for Truth Maintenance and Reasoning Tasks [20.072783454089098]
本稿では,大規模言語モデル (LLM) 評価を形式的タスクに拡張するための新しいベンチマークである AutoEval を提案する。
AutoEvalは最初のベンチマークパラダイムであり、人間のラベルなしでLLMの客観的評価をスケールするのに必要ないくつかの重要な利点を提供している。
論文 参考訳(メタデータ) (2024-10-11T00:56:37Z) - Aligning Model Evaluations with Human Preferences: Mitigating Token Count Bias in Language Model Assessments [2.1370543868467275]
本稿では,大規模言語モデルと人的評価を協調させる手法について検討する。
我々はこのバイアスを定量化するためにベイズ統計とt検定を用い、GPTScorerを調整するための再校正手順を開発した。
以上の結果から,再校正したLCM評価器と,複数のユースケースにおけるヒト評価との整合性は有意に改善した。
論文 参考訳(メタデータ) (2024-07-05T09:26:40Z) - AutoEval Done Right: Using Synthetic Data for Model Evaluation [79.01454261157525]
この目的のために,効率的な統計的アルゴリズムを提案する。
これらのアルゴリズムは、GPT-4の実験において、有効にラベル付けされたサンプルサイズを最大50%増加させる。
論文 参考訳(メタデータ) (2024-03-09T02:47:11Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Efficient Learning of Accurate Surrogates for Simulations of Complex Systems [0.0]
サンプリング駆動サンプリングによって強化されたオンライン学習手法を提案する。
モデル応答面上のすべての旋回点がトレーニングデータに含まれることを保証する。
本手法を核物質のシミュレーションに適用し,高精度なサロゲートを確実に自動生成できることを実証する。
論文 参考訳(メタデータ) (2022-07-11T20:51:11Z) - SE3M: A Model for Software Effort Estimation Using Pre-trained Embedding
Models [0.8287206589886881]
本稿では,事前学習した埋め込みモデルの有効性を評価する。
両方のアプローチでトレーニング済みのジェネリックモデルは、微調整プロセスを経ている。
テスト結果は非常に有望で、事前トレーニングされたモデルを使用して、要求テキストのみに基づいてソフトウェアの労力を見積もることができることに気付きました。
論文 参考訳(メタデータ) (2020-06-30T14:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。