論文の概要: Student's t-Distribution: On Measuring the Inter-Rater Reliability When
the Observations are Scarce
- arxiv url: http://arxiv.org/abs/2303.04526v1
- Date: Wed, 8 Mar 2023 11:51:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 14:13:14.041050
- Title: Student's t-Distribution: On Measuring the Inter-Rater Reliability When
the Observations are Scarce
- Title(参考訳): 学生のt-distribution:観測時の信頼度の測定について
- Authors: Serge Gladkoff and Lifeng Han and Goran Nenadic
- Abstract要約: 自然言語処理(NLP)において、我々は常にゴールデンクオリティ評価法として人間の判断に頼っている。
本研究は,データポイントが1つしかない場合に,測定値の信頼区間を推定する方法を提案する。
これら2つのデータポイントと品質評価の信頼区間(CI)を用いてIRRスコアを測定する方法について説明する。
- 参考スコア(独自算出の注目度): 14.20687200301588
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In natural language processing (NLP) we always rely on human judgement as the
golden quality evaluation method. However, there has been an ongoing debate on
how to better evaluate inter-rater reliability (IRR) levels for certain
evaluation tasks, such as translation quality evaluation (TQE), especially when
the data samples (observations) are very scarce. In this work, we first
introduce the study on how to estimate the confidence interval for the
measurement value when only one data (evaluation) point is available. Then,
this leads to our example with two human-generated observational scores, for
which, we introduce ``Student's \textit{t}-Distribution'' method and explain
how to use it to measure the IRR score using only these two data points, as
well as the confidence intervals (CIs) of the quality evaluation. We give
quantitative analysis on how the evaluation confidence can be greatly improved
by introducing more observations, even if only one extra observation. We
encourage researchers to report their IRR scores in all possible means, e.g.
using Student's \textit{t}-Distribution method whenever possible; thus making
the NLP evaluation more meaningful, transparent, and trustworthy. This
\textit{t}-Distribution method can be also used outside of NLP fields to
measure IRR level for trustworthy evaluation of experimental investigations,
whenever the observational data is scarce.
Keywords: Inter-Rater Reliability (IRR); Scarce Observations; Confidence
Intervals (CIs); Natural Language Processing (NLP); Translation Quality
Evaluation (TQE); Student's \textit{t}-Distribution
- Abstract(参考訳): 自然言語処理(NLP)において、我々は常にゴールデンクオリティ評価法として人間の判断に頼っている。
しかし、翻訳品質評価(TQE)、特にデータサンプル(観測値)が非常に少ない場合など、特定の評価タスクに対して、レータ間信頼性(IRR)レベルをより良く評価する方法に関する議論が続いている。
本研究ではまず,1つのデータ(評価)ポイントしか得られない場合に,測定値の信頼区間を推定する方法について検討する。
次に,2つの人間生成観察スコアを例示し,``sudent's \textit{t}-distribution'' 法を紹介し,これら2つのデータ点のみを用いて irr スコアを測定する方法と,品質評価の信頼区間 (cis) について説明する。
評価信頼度は, 1回だけ観察しても, より多くの観察を導入することで, 評価信頼度が大幅に向上することを示す。
研究者は、学生の「textit{t}-Distribution method」など、あらゆる方法でIRRスコアを報告し、NLP評価をより有意義で透明で信頼性の高いものにすることを推奨する。
この \textit{t}-distribution 法は nlp フィールドの外でも利用でき、観測データが乏しい場合には、実験調査の信頼に値する評価のために irr レベルを測定することができる。
キーワード:インターレータ信頼性(IRR)、スカース観測(Scarce Observations)、信頼区間(CIs)、自然言語処理(NLP)、翻訳品質評価(TQE)、学生の『textit{t}-Distribution』
関連論文リスト
- Measuring What Matters: Intrinsic Distance Preservation as a Robust Metric for Embedding Quality [0.0]
本稿では,組み込み品質を評価するための固有距離保存評価(IDPE)手法を提案する。
IDPEは、元の空間と埋め込み空間のデータポイント間のマハラノビス距離の保存に基づいている。
以上の結果から,IDPEは様々なシナリオにまたがって,より包括的で信頼性の高い組込み品質評価を提供することが示された。
論文 参考訳(メタデータ) (2024-07-31T13:26:09Z) - TeLeS: Temporal Lexeme Similarity Score to Estimate Confidence in
End-to-End ASR [1.8477401359673709]
クラス確率に基づく信頼スコアは、自信過剰なASR予測の品質を正確に表すものではない。
信頼度推定モデル(CEM)を訓練するためのTeLeS(Temporal-Lexeme similarity)の信頼性スコアを提案する。
我々は、ヒンディー語、タミル語、カナダ語という3つの言語で訓練されたASRモデルを用いて、様々なトレーニングデータサイズで実験を行う。
論文 参考訳(メタデータ) (2024-01-06T16:29:13Z) - LLMs as Narcissistic Evaluators: When Ego Inflates Evaluation Scores [23.568883428947494]
本研究は,LMに基づく評価指標が,要約タスクの文脈において,それぞれの基盤となるLMに対して有利なバイアスを示すかどうかを考察する。
以上の結果から, 金のサマリーを活用せずに, 基準のない手法で評価指標を用いた場合, 特に有意なバイアスがみられた。
これらの結果は、生成的評価モデルによって提供される評価は、本質的なテキスト品質を超える要因に影響される可能性があることを裏付けている。
論文 参考訳(メタデータ) (2023-11-16T10:43:26Z) - Beyond AUROC & co. for evaluating out-of-distribution detection
performance [50.88341818412508]
安全(r)AIとの関連性を考えると,OOD検出法の比較の基礎が実用的ニーズと整合しているかどうかを検討することが重要である。
我々は,IDとOODの分離が不十分なことを明示する新しい指標であるAUTC(Area Under the Threshold Curve)を提案する。
論文 参考訳(メタデータ) (2023-06-26T12:51:32Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Out-of-Distribution Detection with Hilbert-Schmidt Independence
Optimization [114.43504951058796]
異常検出タスクはAIの安全性において重要な役割を担っている。
ディープニューラルネットワーク分類器は通常、アウト・オブ・ディストリビューション(OOD)の入力を、信頼性の高いイン・ディストリビューション・クラスに誤って分類する傾向がある。
我々は,OOD検出タスクにおいて実用的かつ理論的に有効な代替確率論的パラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-26T15:59:55Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - An evaluation of word-level confidence estimation for end-to-end
automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討
4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。
以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文 参考訳(メタデータ) (2021-01-14T09:51:59Z) - Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文 参考訳(メタデータ) (2020-02-10T00:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。