論文の概要: How Many Ratings per Item are Necessary for Reliable Significance Testing?
- arxiv url: http://arxiv.org/abs/2412.02968v1
- Date: Wed, 04 Dec 2024 02:31:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:07:30.116045
- Title: How Many Ratings per Item are Necessary for Reliable Significance Testing?
- Title(参考訳): 信頼性の高い重要なテストには,項目毎に何つのレーティングが必要か?
- Authors: Christopher Homan, Flip Korn, Chris Welty,
- Abstract要約: 機械学習評価に対するほとんどのアプローチは、機械と人間の応答は、一元的権威を持つ「金の標準」応答を持つデータに対して測定できる程度に反復可能であると仮定している。
既存または計画された)評価データセットが、あるモデルの性能を他のモデルと確実に比較するのに十分な応答を持っているかどうかを判断する手法を提案する。
- 参考スコア(独自算出の注目度): 7.777020199676859
- License:
- Abstract: Most approaches to machine learning evaluation assume that machine and human responses are repeatable enough to be measured against data with unitary, authoritative, "gold standard" responses, via simple metrics such as accuracy, precision, and recall that assume scores are independent given the test item. However, AI models have multiple sources of stochasticity and the human raters who create gold standards tend to disagree with each other, often in meaningful ways, hence a single output response per input item may not provide enough information. We introduce methods for determining whether an (existing or planned) evaluation dataset has enough responses per item to reliably compare the performance of one model to another. We apply our methods to several of very few extant gold standard test sets with multiple disaggregated responses per item and show that there are usually not enough responses per item to reliably compare the performance of one model against another. Our methods also allow us to estimate the number of responses per item for hypothetical datasets with similar response distributions to the existing datasets we study. When two models are very far apart in their predictive performance, fewer raters are needed to confidently compare them, as expected. However, as the models draw closer, we find that a larger number of raters than are currently typical in annotation collection are needed to ensure that the power analysis correctly reflects the difference in performance.
- Abstract(参考訳): 機械学習評価に対するほとんどのアプローチは、機械と人間の応答は、単体、権威、そして「金の標準」応答を持つデータに対して、テスト項目によって仮定スコアが独立しているという仮定の単純なメトリクスによって測定できると仮定する。
しかし、AIモデルには確率性の複数の源があり、金の標準を作成する人間のレーダは、しばしば意味のある方法で互いに異同する傾向があるため、入力項目ごとに単一の出力応答が十分な情報を提供しない可能性がある。
既存または計画された)評価データセットが、あるモデルの性能を他のモデルと確実に比較するのに十分な応答を持っているかどうかを判断する手法を提案する。
我々は,本手法を,各項目に複数の非凝集反応を持つ数少ないゴールド標準テストセットに適用し,各項目に対して,あるモデルの性能を他のモデルと確実に比較するのに十分な応答が得られていないことを示す。
提案手法は,既存データセットに類似した応答分布を持つ仮説データセットに対して,各項目の応答数を推定することを可能にする。
2つのモデルが予測性能において非常に遠く離れている場合、期待どおりにそれらを確実に比較するラッカーは少なくなります。
しかし, モデルが近づくにつれて, 性能差を正しく反映するためには, アノテーション収集において一般的なものよりも多くのラッカーが必要であることが判明した。
関連論文リスト
- How to Select Datapoints for Efficient Human Evaluation of NLG Models? [57.60407340254572]
人間の評価に最も有用なデータポイントを得るためのセレクタ群を開発した。
本研究では,自動測定値の分散に基づくセレクタ,モデル出力の多様性,項目応答理論がランダム選択より優れていることを示す。
特に,情報源に基づく推定手法を導入し,情報源のテキストに基づいて人体評価に有用な項目を推定する。
論文 参考訳(メタデータ) (2025-01-30T10:33:26Z) - Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models [51.067146460271466]
視覚生成モデルの評価には時間を要するし、計算コストもかかる。
本研究では,効率的,動的,多ラウンドな評価に人間的な戦略を用いる評価エージェントフレームワークを提案する。
1)効率性、2)多様なユーザニーズに合わせた迅速な評価、3)1つの数値スコア以上の説明可能性、4)さまざまなモデルやツールのスケーラビリティ。
論文 参考訳(メタデータ) (2024-12-10T18:52:39Z) - SureMap: Simultaneous Mean Estimation for Single-Task and Multi-Task Disaggregated Evaluation [75.56845750400116]
分散評価(disaggregated evaluation) -- 異なるサブポピュレーション上での機械学習モデルのパフォーマンスの推定 - は、AIシステムのパフォーマンスとグループフェアネスを評価する上で、中核的なタスクである。
ブラックボックスモデルの評価において,マルチタスクとシングルタスクの双方に対して高い推定精度を持つSureMapを開発した。
提案手法は, ウェル・チョーゼンを用いた最大後部推定と, スタインの非バイアスリスク推定(SURE)によるクロスバリデーションフリーチューニングを併用する。
論文 参考訳(メタデータ) (2024-11-14T17:53:35Z) - Compare without Despair: Reliable Preference Evaluation with Generation Separability [20.50638483427141]
テストインスタンスがペアの選好評価にどの程度適しているかを推定する尺度であるセパビリティ(Separability)を導入する。
候補テストインスタンスでは、セパビリティは1組のモデルから複数の世代をサンプリングし、2つの世代がどの程度区別可能であるかを測定する。
実験により、分離性が高いインスタンスは、人間と自動レーダの両方からより一貫した選好格付けが得られることが示された。
論文 参考訳(メタデータ) (2024-07-02T01:37:56Z) - Efficient Shapley Values Estimation by Amortization for Text
Classification [66.7725354593271]
我々は,各入力特徴のシェープ値を直接予測し,追加のモデル評価を行なわずに補正モデルを開発する。
2つのテキスト分類データセットの実験結果から、アモルタイズされたモデルでは、Shapley Valuesを最大60倍のスピードアップで正確に見積もっている。
論文 参考訳(メタデータ) (2023-05-31T16:19:13Z) - Accounting for multiplicity in machine learning benchmark performance [0.0]
最先端のパフォーマンスをSOTA(State-of-the-art)のパフォーマンスの見積として使うのはバイアスのある推定器であり、過度に楽観的な結果をもたらす。
本稿では、複数の分類器の場合の確率分布について、既知の解析手法を適用できるようにし、より優れたSOTA推定値を提供する。
論文 参考訳(メタデータ) (2023-03-10T10:32:18Z) - Sharing pattern submodels for prediction with missing values [12.981974894538668]
機械学習の多くのアプリケーションでは欠落値は避けられず、トレーニング中もテスト時にも課題が提示される。
パターンサブモデル(パターンサブモデル)と呼ばれる別の手法を提案する。これは、テスト時に欠落した値に対して、予測を堅牢にし、パターンサブモデルの予測力を維持または改善させる。
論文 参考訳(メタデータ) (2022-06-22T15:09:40Z) - CARMS: Categorical-Antithetic-REINFORCE Multi-Sample Gradient Estimator [60.799183326613395]
本稿では, 相互に負に相関した複数のサンプルに基づく分類的確率変数の非バイアス推定器を提案する。
CARMSは、ReINFORCEとコプラベースのサンプリングを組み合わせることで、重複サンプルを回避し、その分散を低減し、重要サンプリングを使用して推定器を偏りなく維持する。
我々は、生成的モデリングタスクと構造化された出力予測タスクに基づいて、いくつかのベンチマークデータセット上でCARMSを評価し、強力な自己制御ベースラインを含む競合する手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-10-26T20:14:30Z) - Improving Dialog Evaluation with a Multi-reference Adversarial Dataset
and Large Scale Pretraining [18.174086416883412]
i) コンテキストごとに5つの関連する応答と,(ii) コンテキスト毎に無関係な応答を5つの対向的に作成するDailyDialog++データセットを導入する。
複数の正しい参照が存在する場合でも、n-gramベースのメトリクスと埋め込みベースのメトリクスは、関連する応答をランダムな負と区別するのにうまく機能しないことを示す。
DEBと呼ばれる新しいBERTベースの評価指標を提案し、これはRedditの7億2700万の会話で事前トレーニングされ、データセットで微調整される。
論文 参考訳(メタデータ) (2020-09-23T18:06:52Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。