論文の概要: Auto-Evaluation with Few Labels through Post-hoc Regression
- arxiv url: http://arxiv.org/abs/2411.12665v1
- Date: Tue, 19 Nov 2024 17:17:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:38:08.782599
- Title: Auto-Evaluation with Few Labels through Post-hoc Regression
- Title(参考訳): ポストホック回帰によるラベルの自動評価
- Authors: Benjamin Eyre, David Madras,
- Abstract要約: 予測パワー推論(PPI)フレームワークは、自動評価の統計的パワーとラベル付きデータの小さなプールを活用する方法を提供する。
本稿では, 頑健な回帰器を用いたPPIに基づく2つの新しい手法を提案する。
- 参考スコア(独自算出の注目度): 4.813376208491175
- License:
- Abstract: Continually evaluating large generative models provides a unique challenge. Often, human annotations are necessary to evaluate high-level properties of these models (e.g. in text or images). However, collecting human annotations of samples can be resource intensive, and using other machine learning systems to provide the annotations, or automatic evaluation, can introduce systematic errors into the evaluation. The Prediction Powered Inference (PPI) framework provides a way of leveraging both the statistical power of automatic evaluation and a small pool of labelled data to produce a low-variance, unbiased estimate of the quantity being evaluated for. However, most work on PPI considers a relatively sizable set of labelled samples, which is not always practical to obtain. To this end, we present two new PPI-based techniques that leverage robust regressors to produce even lower variance estimators in the few-label regime.
- Abstract(参考訳): 大規模な生成モデルを継続的に評価することは、ユニークな課題である。
しばしば、人間のアノテーションはこれらのモデルの高レベルな特性(例えばテキストや画像)を評価するために必要である。
しかし、サンプルの人的アノテーションの収集は資源集約的であり、他の機械学習システムを用いてアノテーションを提供する、あるいは自動評価は、評価に体系的な誤りを導入することができる。
予測パワー推論(英語版)(PPI)フレームワークは、自動評価の統計的パワーとラベル付きデータの小さなプールの両方を活用する方法を提供し、評価される量の低分散で偏りのない見積もりを生成する。
しかしながら、PPIに関するほとんどの研究は、比較的大きなラベル付きサンプルの集合を考慮しており、必ずしも入手が現実的とは限らない。
この目的のために、ロバストな回帰器を利用する2つの新しいPPIベースの手法を提案する。
関連論文リスト
- Polyrating: A Cost-Effective and Bias-Aware Rating System for LLM Evaluation [5.653106385738822]
ポリーティング(Polyrating)は、最大後方推定に基づく表現的かつ柔軟な評価システムである。
人間の嗜好に影響を与えるバイアスを検出し定量化し、より公平なモデル比較を保証する。
人的評価のコストを、新しいモデルで最大41%、新しいタスクで最大77%削減することができる。
論文 参考訳(メタデータ) (2024-09-01T11:24:54Z) - Aligning Model Evaluations with Human Preferences: Mitigating Token Count Bias in Language Model Assessments [2.1370543868467275]
本稿では,大規模言語モデルと人的評価を協調させる手法について検討する。
我々はこのバイアスを定量化するためにベイズ統計とt検定を用い、GPTScorerを調整するための再校正手順を開発した。
以上の結果から,再校正したLCM評価器と,複数のユースケースにおけるヒト評価との整合性は有意に改善した。
論文 参考訳(メタデータ) (2024-07-05T09:26:40Z) - Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。
我々はStratPPI(Stratified Prediction-Powered Inference)という手法を提案する。
単純なデータ階層化戦略を用いることで,基礎的なPPI推定精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-06-06T17:37:39Z) - Evaluation of human-model prediction difference on the Internet Scale of Data [32.7296837724399]
データセットのモデルを評価することは、予期せぬ多様な入力に直面すると、その振る舞いを捉えるのに失敗することが多い。
入力空間のPRによってNNを評価し比較する新しい手法であるOmniInputを提案する。
論文 参考訳(メタデータ) (2023-12-06T04:53:12Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Feature Likelihood Divergence: Evaluating the Generalization of
Generative Models Using Samples [25.657798631897908]
Feature Likelihood Divergenceは、生成モデルの包括的なトリコトミック評価を提供する。
我々は,以前に提案された指標が失敗した場合でも,FLDが過度に適合する問題を識別できることを実証的に示す。
論文 参考訳(メタデータ) (2023-02-09T04:57:27Z) - Low-Shot Validation: Active Importance Sampling for Estimating
Classifier Performance on Rare Categories [47.050853657721596]
限定ラベル付きトレーニングデータでトレーニングされた機械学習モデルでは、全体のアノテーションコストを削減する上で、バリデーションが主要なボトルネックになる。
稀なカテゴリのバイナリ分類器のFスコアを正確に推定する統計的検証アルゴリズムを提案する。
特に、100個のラベルを用いて0.005の差でモデルF1のスコアを推定できる。
論文 参考訳(メタデータ) (2021-09-13T06:01:16Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。