論文の概要: NLPStatTest: A Toolkit for Comparing NLP System Performance
- arxiv url: http://arxiv.org/abs/2011.13231v1
- Date: Thu, 26 Nov 2020 10:59:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 09:12:19.346536
- Title: NLPStatTest: A Toolkit for Comparing NLP System Performance
- Title(参考訳): NLPStatTest: NLPシステムパフォーマンスを比較するツールキット
- Authors: Haotian Zhu, Denise Mak, Jesse Gioannini, Fei Xia
- Abstract要約: 本研究では,NLPシステムの性能を比較するための3段階の手順を提案し,そのプロセスを自動化するツールキットであるNLPStatTestを提案する。
このツールキットは、統計的に重要なテストを超えて、NLPシステムのパフォーマンスを比較するのに便利で体系的な方法を提供する。
- 参考スコア(独自算出の注目度): 7.1810836914493885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Statistical significance testing centered on p-values is commonly used to
compare NLP system performance, but p-values alone are insufficient because
statistical significance differs from practical significance. The latter can be
measured by estimating effect size. In this paper, we propose a three-stage
procedure for comparing NLP system performance and provide a toolkit,
NLPStatTest, that automates the process. Users can upload NLP system evaluation
scores and the toolkit will analyze these scores, run appropriate significance
tests, estimate effect size, and conduct power analysis to estimate Type II
error. The toolkit provides a convenient and systematic way to compare NLP
system performance that goes beyond statistical significance testing
- Abstract(参考訳): p-値を中心とした統計的意義試験は、一般的にnlpシステムの性能を比較するために用いられるが、p-値だけでは実用的意義とは異なるため不十分である。
後者は効果の大きさを推定することで測定できる。
本稿では,NLPシステムの性能を比較するための3段階の手順を提案し,そのプロセスを自動化するツールキットであるNLPStatTestを提案する。
ユーザはNLPシステム評価スコアをアップロードでき、ツールキットはこれらのスコアを分析し、適切な重要度テストを実行し、効果の大きさを推定し、II型エラーを推定するために電力分析を行う。
このツールキットは、統計意味テストを超えてnlpシステムのパフォーマンスを比較するための便利で体系的な方法を提供する
関連論文リスト
- Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。
我々はStratPPI(Stratified Prediction-Powered Inference)という手法を提案する。
単純なデータ階層化戦略を用いることで,基礎的なPPI推定精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-06-06T17:37:39Z) - Bayesian Prediction-Powered Inference [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。
本稿では,ベイズ推定に基づくPPIのためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-09T18:08:58Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Please, Don't Forget the Difference and the Confidence Interval when
Seeking for the State-of-the-Art Status [0.0]
最先端状態(SOTA)と統計的意義テストの代わりにNLPシステム性能を比較するブートストラップ信頼区間。
主な利点は、2つのシステム間のパフォーマンスの違いに注意を向けることと、あるシステムの他のシステムに対する優越度を評価することである。
論文 参考訳(メタデータ) (2022-05-23T08:42:17Z) - Differential privacy and robust statistics in high dimensions [49.50869296871643]
高次元Propose-Test-Release (HPTR) は指数的メカニズム、頑健な統計、Propose-Test-Release メカニズムという3つの重要なコンポーネントの上に構築されている。
本論文では,HPTRが複数のシナリオで最適サンプル複雑性をほぼ達成していることを示す。
論文 参考訳(メタデータ) (2021-11-12T06:36:40Z) - Better than Average: Paired Evaluation of NLP Systems [31.311553903738798]
評価スコアのインスタンスレベルのペアリングを考慮に入れることの重要性を示す。
平均, 中央値, BT と 2 種類のBT (Elo と TrueSkill) を用いて評価スコアの完全な解析を行うための実用的なツールをリリースする。
論文 参考訳(メタデータ) (2021-10-20T19:40:31Z) - Deep Reinforcement Learning at the Edge of the Statistical Precipice [31.178451465925555]
深部RL体制下での信頼性評価は、現場の進捗を遅らせるリスクを負うことなく、結果の不確かさを無視することはできないと論じる。
我々は,集計性能の時間間隔推定を提唱し,結果の変動性を考慮した性能プロファイルを提案する。
論文 参考訳(メタデータ) (2021-08-30T14:23:48Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Towards More Fine-grained and Reliable NLP Performance Prediction [85.78131503006193]
NLPタスクのパフォーマンス予測の改善に2つの貢献をしている。
まず,F1やBLEUのような総合的な精度測定のための性能予測器について検討する。
次に,信頼区間とキャリブレーションの2つの角度から性能予測モデルの信頼性を理解する手法を提案する。
論文 参考訳(メタデータ) (2021-02-10T15:23:20Z) - Interpretable Meta-Measure for Model Performance [4.91155110560629]
Elo-based Predictive Power (EPP) と呼ばれる新しいメタスコアアセスメントを導入する。
EPPは、他のパフォーマンス指標の上に構築されており、モデルの解釈可能な比較を可能にする。
本研究では,EPPの数学的特性を証明し,30の分類データセット上の大規模ベンチマークと実世界のビジュアルデータに対するベンチマークを実証的に支援する。
論文 参考訳(メタデータ) (2020-06-02T14:10:13Z) - Computing Valid p-value for Optimal Changepoint by Selective Inference
using Dynamic Programming [21.361641617994714]
変化点(CP)の意義を統計的に推測する新しい手法を提案する。
選択的推論(SI)フレームワークに基づき、CPの意義をテストするための有効なp値を計算するための正確な(漸近的でない)アプローチを提案する。
合成と実世界の両方のデータセットで実験を行い、提案手法が既存の手法よりも強力であることを示す。
論文 参考訳(メタデータ) (2020-02-21T05:07:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。