論文の概要: Regression for the Mean: Auto-Evaluation and Inference with Few Labels through Post-hoc Regression
- arxiv url: http://arxiv.org/abs/2411.12665v2
- Date: Tue, 08 Jul 2025 16:05:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:36.731083
- Title: Regression for the Mean: Auto-Evaluation and Inference with Few Labels through Post-hoc Regression
- Title(参考訳): 意味の回帰:ポスト・ホット・レグレッションによる少数のラベルの自動評価と推論
- Authors: Benjamin Eyre, David Madras,
- Abstract要約: Prediction Powered Inference (PPI)フレームワークは、大量の擬似ラベル付きデータと、実際の高品質なラベルを持つ小さなサンプルの両方を活用する方法を提供する。
ラベル付きデータが不足すると、PPI++メソッドは古典的推論よりもさらにパフォーマンスが良くなる。
本稿では, 頑健な回帰器を用いたPPIに基づく2つの新しい手法を提案する。
- 参考スコア(独自算出の注目度): 4.813376208491175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The availability of machine learning systems that can effectively perform arbitrary tasks has led to synthetic labels from these systems being used in applications of statistical inference, such as data analysis or model evaluation. The Prediction Powered Inference (PPI) framework provides a way of leveraging both a large pool of pseudo-labelled data and a small sample with real, high-quality labels to produce a low-variance, unbiased estimate of the quantity being evaluated for. Most work on PPI considers a relatively sizable set of labelled samples, which can be resource intensive to obtain. However, we find that when labelled data is scarce, the PPI++ method can perform even worse than classical inference. We analyze this phenomenon by relating PPI++ to ordinary least squares regression, which also experiences high variance with small sample sizes, and use this regression framework to better understand the efficacy of PPI. Motivated by this, we present two new PPI-based techniques that leverage robust regressors to produce even lower variance estimators in the few-label regime.
- Abstract(参考訳): 任意のタスクを効果的に実行可能な機械学習システムの可用性は、データ分析やモデル評価といった統計的推論の応用で使用されているこれらのシステムからの合成ラベルにつながっている。
予測パワー推論(英: Prediction Powered Inference、PPI)フレームワークは、擬似ラベル付きデータの大きなプールと、実際の高品質なラベルを持つ小さなサンプルの両方を活用する方法を提供する。
PPIに関するほとんどの研究は、比較的大きなラベル付けされたサンプルの集合を考えており、資源を集中的に得ることができる。
しかし、ラベル付きデータが不足している場合には、PPI++メソッドは古典的推論よりもさらにパフォーマンスが悪くなる。
PPI++と通常の最小二乗回帰を関連付けることでこの現象を解析し、小さなサンプルサイズと高いばらつきを経験し、この回帰フレームワークを用いてPPIの有効性をよりよく理解する。
そこで本研究では,ロバストな回帰器を用いたPPIに基づく2つの新しい手法を提案する。
関連論文リスト
- Polyrating: A Cost-Effective and Bias-Aware Rating System for LLM Evaluation [5.653106385738822]
ポリーティング(Polyrating)は、最大後方推定に基づく表現的かつ柔軟な評価システムである。
人間の嗜好に影響を与えるバイアスを検出し定量化し、より公平なモデル比較を保証する。
人的評価のコストを、新しいモデルで最大41%、新しいタスクで最大77%削減することができる。
論文 参考訳(メタデータ) (2024-09-01T11:24:54Z) - Aligning Model Evaluations with Human Preferences: Mitigating Token Count Bias in Language Model Assessments [2.1370543868467275]
本稿では,大規模言語モデルと人的評価を協調させる手法について検討する。
我々はこのバイアスを定量化するためにベイズ統計とt検定を用い、GPTScorerを調整するための再校正手順を開発した。
以上の結果から,再校正したLCM評価器と,複数のユースケースにおけるヒト評価との整合性は有意に改善した。
論文 参考訳(メタデータ) (2024-07-05T09:26:40Z) - Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。
我々はStratPPI(Stratified Prediction-Powered Inference)という手法を提案する。
単純なデータ階層化戦略を用いることで,基礎的なPPI推定精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-06-06T17:37:39Z) - Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。
SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文 参考訳(メタデータ) (2023-08-08T16:41:16Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Feature Likelihood Divergence: Evaluating the Generalization of
Generative Models Using Samples [25.657798631897908]
Feature Likelihood Divergenceは、生成モデルの包括的なトリコトミック評価を提供する。
我々は,以前に提案された指標が失敗した場合でも,FLDが過度に適合する問題を識別できることを実証的に示す。
論文 参考訳(メタデータ) (2023-02-09T04:57:27Z) - Low-Shot Validation: Active Importance Sampling for Estimating
Classifier Performance on Rare Categories [47.050853657721596]
限定ラベル付きトレーニングデータでトレーニングされた機械学習モデルでは、全体のアノテーションコストを削減する上で、バリデーションが主要なボトルネックになる。
稀なカテゴリのバイナリ分類器のFスコアを正確に推定する統計的検証アルゴリズムを提案する。
特に、100個のラベルを用いて0.005の差でモデルF1のスコアを推定できる。
論文 参考訳(メタデータ) (2021-09-13T06:01:16Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。