論文の概要: How Many Ratings per Item are Necessary for Reliable Significance Testing?
- arxiv url: http://arxiv.org/abs/2412.02968v2
- Date: Tue, 28 Oct 2025 19:25:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:42.789101
- Title: How Many Ratings per Item are Necessary for Reliable Significance Testing?
- Title(参考訳): 信頼性の高い重要なテストには,項目毎に何つのレーティングが必要か?
- Authors: Christopher Homan, Flip Korn, Deepak Pandita, Chris Welty,
- Abstract要約: 機械学習評価の基盤は、モデルと人間の反応が一元的、権威的、金標準のデータに対するモデルを評価するのに十分な信頼性を持つという仮定である。
我々は、(既存のまたは計画された)データセットが、信頼できるヌル仮説の統計的テストを保証するのに十分な応答を持っているかどうかを判断するために、メソッドを適用する。
我々の手法は、AI研究者がAI評価のためのデータ収集方法に関するより良い決定を下すのにどのように役立つかを示す。
- 参考スコア(独自算出の注目度): 7.422152765037947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A cornerstone of machine learning evaluation is the (often hidden) assumption that model and human responses are reliable enough to evaluate models against unitary, authoritative, ``gold standard'' data, via simple metrics such as accuracy, precision, and recall. The generative AI revolution would seem to explode this assumption, given the critical role stochastic inference plays. Yet, in spite of public demand for more transparency in AI -- along with strong evidence that humans are unreliable judges -- estimates of model reliability are conventionally based on, at most, a few output responses per input item. We adapt a method, previously used to evaluate the reliability of various metrics and estimators for machine learning evaluation, to determine whether an (existing or planned) dataset has enough responses per item to assure reliable null hypothesis statistical testing. We show that, for many common metrics, collecting even 5-10 responses per item (from each model and team of human evaluators) is not sufficient. We apply our methods to several of the very few extant gold standard test sets with multiple disaggregated responses per item and show that even these datasets lack enough responses per item. We show how our methods can help AI researchers make better decisions about how to collect data for AI evaluation.
- Abstract(参考訳): 機械学習評価の基盤は、(しばしば隠された)モデルと人間の反応が、正確性、精度、リコールのような単純なメトリクスによって、ユニタリ、権威、‘ゴールドスタンダード’データに対するモデルを評価するのに十分信頼できるという仮定である。
確率的推論が果たす重要な役割を考えると、生成的AI革命はこの仮定を爆発させるようだ。
しかし、AIにおけるより透明性を求める大衆の要求と、人間が信頼できない判断者であるという強い証拠にもかかわらず、モデルの信頼性の推定は、通常、入力アイテム当たりの出力応答数に基づいています。
我々は,従来,各種メトリクスの信頼性評価や機械学習評価のための推定器として用いられてきた手法を適用し,各項目に対して(既存または計画された)データセットに十分な応答があるかどうかを判断し,信頼性の高いヌル仮説の統計的検証を行う。
多くの一般的な指標では、各項目(各モデルと人間評価者のチーム)から5~10件の回答を集めるだけでは不十分である。
当社の手法を、アイテム毎に複数の非集約応答を持つ、現存する数少ないゴールド標準テストセットに適用し、これらのデータセットでさえアイテム毎に十分なレスポンスが欠如していることを示します。
我々の手法は、AI研究者がAI評価のためのデータ収集方法に関するより良い決定を下すのにどのように役立つかを示す。
関連論文リスト
- Where is this coming from? Making groundedness count in the evaluation of Document VQA models [12.951716701565019]
一般的な評価指標は、モデルの出力のセマンティックおよびマルチモーダルな基礎性を考慮しない。
本稿では,予測の基盤性を考慮した新しい評価手法を提案する。
提案手法は,ユーザが好みに応じてスコアを設定できるようにパラメータ化されている。
論文 参考訳(メタデータ) (2025-03-24T20:14:46Z) - How to Select Datapoints for Efficient Human Evaluation of NLG Models? [57.60407340254572]
人間の評価に最も有用なデータポイントを得るためのセレクタ群を開発した。
本研究では,自動測定値の分散に基づくセレクタ,モデル出力の多様性,項目応答理論がランダム選択より優れていることを示す。
特に,情報源に基づく推定手法を導入し,情報源のテキストに基づいて人体評価に有用な項目を推定する。
論文 参考訳(メタデータ) (2025-01-30T10:33:26Z) - Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models [51.067146460271466]
視覚生成モデルの評価には時間を要するし、計算コストもかかる。
本研究では,効率的,動的,多ラウンドな評価に人間的な戦略を用いる評価エージェントフレームワークを提案する。
1)効率性、2)多様なユーザニーズに合わせた迅速な評価、3)1つの数値スコア以上の説明可能性、4)さまざまなモデルやツールのスケーラビリティ。
論文 参考訳(メタデータ) (2024-12-10T18:52:39Z) - SureMap: Simultaneous Mean Estimation for Single-Task and Multi-Task Disaggregated Evaluation [75.56845750400116]
分散評価(disaggregated evaluation) -- 異なるサブポピュレーション上での機械学習モデルのパフォーマンスの推定 - は、AIシステムのパフォーマンスとグループフェアネスを評価する上で、中核的なタスクである。
ブラックボックスモデルの評価において,マルチタスクとシングルタスクの双方に対して高い推定精度を持つSureMapを開発した。
提案手法は, ウェル・チョーゼンを用いた最大後部推定と, スタインの非バイアスリスク推定(SURE)によるクロスバリデーションフリーチューニングを併用する。
論文 参考訳(メタデータ) (2024-11-14T17:53:35Z) - Compare without Despair: Reliable Preference Evaluation with Generation Separability [20.50638483427141]
テストインスタンスがペアの選好評価にどの程度適しているかを推定する尺度であるセパビリティ(Separability)を導入する。
候補テストインスタンスでは、セパビリティは1組のモデルから複数の世代をサンプリングし、2つの世代がどの程度区別可能であるかを測定する。
実験により、分離性が高いインスタンスは、人間と自動レーダの両方からより一貫した選好格付けが得られることが示された。
論文 参考訳(メタデータ) (2024-07-02T01:37:56Z) - Efficient Shapley Values Estimation by Amortization for Text
Classification [66.7725354593271]
我々は,各入力特徴のシェープ値を直接予測し,追加のモデル評価を行なわずに補正モデルを開発する。
2つのテキスト分類データセットの実験結果から、アモルタイズされたモデルでは、Shapley Valuesを最大60倍のスピードアップで正確に見積もっている。
論文 参考訳(メタデータ) (2023-05-31T16:19:13Z) - Accounting for multiplicity in machine learning benchmark performance [0.0]
最先端のパフォーマンスをSOTA(State-of-the-art)のパフォーマンスの見積として使うのはバイアスのある推定器であり、過度に楽観的な結果をもたらす。
本稿では、複数の分類器の場合の確率分布について、既知の解析手法を適用できるようにし、より優れたSOTA推定値を提供する。
論文 参考訳(メタデータ) (2023-03-10T10:32:18Z) - Sharing pattern submodels for prediction with missing values [12.981974894538668]
機械学習の多くのアプリケーションでは欠落値は避けられず、トレーニング中もテスト時にも課題が提示される。
パターンサブモデル(パターンサブモデル)と呼ばれる別の手法を提案する。これは、テスト時に欠落した値に対して、予測を堅牢にし、パターンサブモデルの予測力を維持または改善させる。
論文 参考訳(メタデータ) (2022-06-22T15:09:40Z) - CARMS: Categorical-Antithetic-REINFORCE Multi-Sample Gradient Estimator [60.799183326613395]
本稿では, 相互に負に相関した複数のサンプルに基づく分類的確率変数の非バイアス推定器を提案する。
CARMSは、ReINFORCEとコプラベースのサンプリングを組み合わせることで、重複サンプルを回避し、その分散を低減し、重要サンプリングを使用して推定器を偏りなく維持する。
我々は、生成的モデリングタスクと構造化された出力予測タスクに基づいて、いくつかのベンチマークデータセット上でCARMSを評価し、強力な自己制御ベースラインを含む競合する手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-10-26T20:14:30Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Improving Dialog Evaluation with a Multi-reference Adversarial Dataset
and Large Scale Pretraining [18.174086416883412]
i) コンテキストごとに5つの関連する応答と,(ii) コンテキスト毎に無関係な応答を5つの対向的に作成するDailyDialog++データセットを導入する。
複数の正しい参照が存在する場合でも、n-gramベースのメトリクスと埋め込みベースのメトリクスは、関連する応答をランダムな負と区別するのにうまく機能しないことを示す。
DEBと呼ばれる新しいBERTベースの評価指標を提案し、これはRedditの7億2700万の会話で事前トレーニングされ、データセットで微調整される。
論文 参考訳(メタデータ) (2020-09-23T18:06:52Z) - Two-Sample Testing on Ranked Preference Data and the Role of Modeling
Assumptions [57.77347280992548]
本稿では,ペアワイズ比較データとランキングデータのための2サンプル試験を設計する。
私たちのテストでは、基本的に分布に関する仮定は必要ありません。
実世界のペアワイズ比較データに2サンプルテストを適用することで、人によって提供される評価とランキングは、実際は異なる分散である、と結論付ける。
論文 参考訳(メタデータ) (2020-06-21T20:51:09Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。