論文の概要: Please, Don't Forget the Difference and the Confidence Interval when
Seeking for the State-of-the-Art Status
- arxiv url: http://arxiv.org/abs/2205.11134v1
- Date: Mon, 23 May 2022 08:42:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 17:05:31.852508
- Title: Please, Don't Forget the Difference and the Confidence Interval when
Seeking for the State-of-the-Art Status
- Title(参考訳): 最先端のステータスを求めるときの違いと信頼区間を忘れないでください。
- Authors: Yves Bestgen
- Abstract要約: 最先端状態(SOTA)と統計的意義テストの代わりにNLPシステム性能を比較するブートストラップ信頼区間。
主な利点は、2つのシステム間のパフォーマンスの違いに注意を向けることと、あるシステムの他のシステムに対する優越度を評価することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper argues for the widest possible use of bootstrap confidence
intervals for comparing NLP system performances instead of the state-of-the-art
status (SOTA) and statistical significance testing. Their main benefits are to
draw attention to the difference in performance between two systems and to help
assessing the degree of superiority of one system over another. Two cases
studies, one comparing several systems and the other based on a K-fold
cross-validation procedure, illustrate these benefits. A python module for
obtaining these confidence intervals as well as a second function implementing
the Fisher-Pitman test for paired samples are freely available on PyPi.
- Abstract(参考訳): 本稿では,最新状態 (sota) と統計的有意性テストに代えてnlpシステムの性能を比較するために,ブートストラップ信頼区間を最大限に活用することを提案する。
彼らの主な利点は、2つのシステム間のパフォーマンスの違いに注意を向けることと、あるシステムの他のシステムに対する優位性を評価することである。
2つのケーススタディ、1つは複数のシステムを比較し、もう1つはK-foldクロスバリデーション法に基づく。
これらの信頼区間を得るためのピソンモジュールと、ペアサンプルに対するフィッシャー・ピットマンテストを実装する第2の関数は、PyPiで自由に利用できる。
関連論文リスト
- Adaptive Image Quality Assessment via Teaching Large Multimodal Model to Compare [99.57567498494448]
我々はLMMに基づくノン参照IQAモデルであるCompare2Scoreを紹介する。
トレーニング中、同じIQAデータセットの画像を比較することで、スケールアップ比較命令を生成する。
9つのIQAデータセットの実験により、Compare2Scoreは、トレーニング中にテキスト定義の比較レベルを効果的にブリッジすることを確認した。
論文 参考訳(メタデータ) (2024-05-29T17:26:09Z) - Boosting Out-of-Distribution Detection with Multiple Pre-trained Models [41.66566916581451]
事前訓練されたモデルを用いたポストホック検出は有望な性能を示し、大規模にスケールできる。
本稿では,事前訓練されたモデルの動物園から抽出した複数の検出決定をアンサンブルすることで,検出強化手法を提案する。
CIFAR10 と ImageNet のベンチマークでは, 相対性能を 65.40% と 26.96% で大幅に改善した。
論文 参考訳(メタデータ) (2022-12-24T12:11:38Z) - Out-of-Distribution Detection with Hilbert-Schmidt Independence
Optimization [114.43504951058796]
異常検出タスクはAIの安全性において重要な役割を担っている。
ディープニューラルネットワーク分類器は通常、アウト・オブ・ディストリビューション(OOD)の入力を、信頼性の高いイン・ディストリビューション・クラスに誤って分類する傾向がある。
我々は,OOD検出タスクにおいて実用的かつ理論的に有効な代替確率論的パラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-26T15:59:55Z) - The Impact of Edge Displacement Vaserstein Distance on UD Parsing
Performance [3.7311680121118345]
本研究では,トレーニングデータとテストデータにおけるエッジ変位分布の違いを評価する。
そして、多くの統計的手法を用いて、この仮説を偽造しようと試みる。
より広い意味では、ここで提示される方法論は、NLPにおける将来の相関に基づく探索研究のリファレンスとして機能することができる。
論文 参考訳(メタデータ) (2022-09-15T08:37:12Z) - Algorithms for Adaptive Experiments that Trade-off Statistical Analysis
with Reward: Combining Uniform Random Assignment and Reward Maximization [50.725191156128645]
トンプソンサンプリングのようなマルチアームバンディットアルゴリズムは適応的な実験を行うのに利用できる。
統計的解析のための一様ランダム化の利点を組み合わせた2つのアルゴリズムを探索する2つのアーム実験のシミュレーションを提案する。
論文 参考訳(メタデータ) (2021-12-15T22:11:58Z) - Better than Average: Paired Evaluation of NLP Systems [31.311553903738798]
評価スコアのインスタンスレベルのペアリングを考慮に入れることの重要性を示す。
平均, 中央値, BT と 2 種類のBT (Elo と TrueSkill) を用いて評価スコアの完全な解析を行うための実用的なツールをリリースする。
論文 参考訳(メタデータ) (2021-10-20T19:40:31Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - NLPStatTest: A Toolkit for Comparing NLP System Performance [7.1810836914493885]
本研究では,NLPシステムの性能を比較するための3段階の手順を提案し,そのプロセスを自動化するツールキットであるNLPStatTestを提案する。
このツールキットは、統計的に重要なテストを超えて、NLPシステムのパフォーマンスを比較するのに便利で体系的な方法を提供する。
論文 参考訳(メタデータ) (2020-11-26T10:59:23Z) - Two-Sample Testing on Ranked Preference Data and the Role of Modeling
Assumptions [57.77347280992548]
本稿では,ペアワイズ比較データとランキングデータのための2サンプル試験を設計する。
私たちのテストでは、基本的に分布に関する仮定は必要ありません。
実世界のペアワイズ比較データに2サンプルテストを適用することで、人によって提供される評価とランキングは、実際は異なる分散である、と結論付ける。
論文 参考訳(メタデータ) (2020-06-21T20:51:09Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。