論文の概要: Industrializing Prediction-Powered Inference: The GLIDE Library for Reliable GenAI and Agentic Systems Evaluation
- arxiv url: http://arxiv.org/abs/2605.31278v2
- Date: Thu, 04 Jun 2026 07:25:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 19:21:32.812182
- Title: Industrializing Prediction-Powered Inference: The GLIDE Library for Reliable GenAI and Agentic Systems Evaluation
- Title(参考訳): 産業化予測による推論:信頼性の高いGenAIとエージェントシステム評価のためのGLIDEライブラリ
- Authors: Grégoire Martinon, Ibrahim Merad, Mohammed Raki,
- Abstract要約: 予測駆動推論(PPI)は、双方をバイアス付き推定と有効な信頼区間に結合する。
我々は,最先端のPPI推定器を統一したオープンソースのPythonライブラリであるGLIDEを紹介する。
GLIDEには、再現可能なモンテカルロ検証スイート、メソッド選択のための実証的根拠決定ツリー、エージェント評価ケーススタディが付属している。
- 参考スコア(独自算出の注目度): 2.28126966226433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable evaluation of agentic systems requires unbiased estimates with valid uncertainty, but standard practice navigates between costly human annotation and biased LLM-as-judge proxies. Prediction-powered inference (PPI) combines both into debiased estimates with valid confidence intervals, yet its various methods remain scattered across papers under partial implementations. We introduce GLIDE, an open-source Python library that unifies state-of-the-art PPI estimators (PPI++, Stratified PPI, Predict-Then-Debias and its stratified variants, Active Statistical Inference) and samplers (uniform, stratified, active, cost-optimal) under a scipy-style API specialized to mean estimation. GLIDE ships with a reproducible Monte Carlo validation suite, an empirically grounded decision tree for method selection, and an agentic evaluation case study showing substantial annotation savings at equivalent precision. The GLIDE package is available at this URL: https://github.com/EmertonData/glide
- Abstract(参考訳): エージェントシステムの信頼性評価には、妥当な不確実性を伴うバイアスのない見積もりが必要であるが、標準的なプラクティスは、コストのかかる人間のアノテーションと、偏りのあるLSM-as-judgeプロキシの間をナビゲートする。
予測駆動推論(PPI)は、双方をバイアス付き推定と有効な信頼区間に組み合わせるが、その様々な手法は部分的な実装の下で論文に散らばっている。
PPI++, Stratified PPI, Predict-Then-Debias and its Stratified variants, Active Statistical Inference, and samplers (uniform, Stratified, active, cost-timal) を,平均推定に特化したスキディスタイルのAPIで統合する,オープンソースのPythonライブラリであるGLIDEを紹介する。
GLIDEには、再現可能なモンテカルロ検証スイート、メソッド選択のための実証的根拠決定ツリー、および等価な精度で相当なアノテーション保存を示すエージェント評価ケーススタディが付属している。
GLIDEパッケージはこのURLで利用できる。
関連論文リスト
- Hidden Measurement Error in LLM Pipelines Distorts Annotation, Evaluation, and Benchmarking [0.20305676256390937]
本論文は,不確実性を情報源に分解し,より多くのデータで縮小する分散を識別し,総誤差を低減するためにデザインスタディ・プロジェクションを用いる。
イデオロギーアノテーション、安全性分類、MMLUベンチマーク、および人間公認プロパガンダ監査へのアプローチの適用により、ドメインとスコアリング方法によって異なる支配的な分散源が明らかになる。
論文 参考訳(メタデータ) (2026-04-13T14:58:15Z) - Demystifying Prediction Powered Inference [4.962232906170314]
予測パワー推論(英: Prediction-Powered Inference、PPI)は、大規模なラベルなしデータセットからの予測を活用して統計的効率を改善する、原則化されたフレームワークである。
その可能性にもかかわらず、PPIの変種の増加と両者の微妙な区別は、実践者がいつ、どのようにこれらの方法を適用するかを決定するのを困難にしている。
本稿では,PPIの理論的基礎,方法論的拡張,既存の統計文献への接続,診断ツールを統一的な実用的なワークフローに合成することによって,PPIをデミステレーションする。
論文 参考訳(メタデータ) (2026-01-28T18:16:02Z) - Optimal Debiased Inference on Privatized Data via Indirect Estimation and Parametric Bootstrap [12.65121513620053]
民営化されたデータに対する既存のパラメトリックブートストラップの使用は、クランプの効果を無視したり回避したりしていた。
本稿では,パラメータ値を連続的に推定するために間接推論手法を提案する。
本フレームワークは,信頼区間をよく校正したカバレッジで生成し,正しいI型誤差で仮説テストを行う。
論文 参考訳(メタデータ) (2025-07-14T19:12:16Z) - Bayesian Estimation and Tuning-Free Rank Detection for Probability Mass Function Tensors [17.640500920466984]
本稿では,関節のPMFを推定し,そのランクを観測データから自動的に推定する新しい枠組みを提案する。
我々は、様々なモデルパラメータの後方分布を近似するために、変分推論(VI)に基づく決定論的解を導出し、さらに、変分推論(SVI)を利用して、VVIベースのアプローチのスケーラブルバージョンを開発する。
合成データと実映画レコメンデーションデータの両方を含む実験は、推定精度、自動ランク検出、計算効率の点で、VVIおよびSVIベースの手法の利点を示している。
論文 参考訳(メタデータ) (2024-10-08T20:07:49Z) - A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)のための最初の形式的確率的評価フレームワークを紹介する。
すなわち,モデルの出力分布に関する確率保証の高い新しい指標を提案する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文 参考訳(メタデータ) (2024-10-04T15:44:23Z) - Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。
我々はStratPPI(Stratified Prediction-Powered Inference)という手法を提案する。
単純なデータ階層化戦略を用いることで,基礎的なPPI推定精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-06-06T17:37:39Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Control Variates for Slate Off-Policy Evaluation [112.35528337130118]
多次元動作を伴うバッチ化されたコンテキスト帯域データから政治外評価の問題について検討する。
我々は, PIと自己正規化PIの双方に対して, リスク改善を保証した新しい推定器を得る。
論文 参考訳(メタデータ) (2021-06-15T06:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。