論文の概要: k-Rater Reliability: The Correct Unit of Reliability for Aggregated
Human Annotations
- arxiv url: http://arxiv.org/abs/2203.12913v1
- Date: Thu, 24 Mar 2022 08:05:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 22:19:53.465119
- Title: k-Rater Reliability: The Correct Unit of Reliability for Aggregated
Human Annotations
- Title(参考訳): k-Rater Reliability: Aggregated Human Annotationのための信頼性の正しいユニット
- Authors: Ka Wong, Praveen Paritosh
- Abstract要約: 集約データセットの正しいデータ信頼性として、提案されたk-rater信頼性(kRR)を用いる必要がある。
我々は、WordSim-353上でkRRを計算するための経験的、分析的、ブートストラップに基づく手法を提案する。
- 参考スコア(独自算出の注目度): 2.538209532048867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since the inception of crowdsourcing, aggregation has been a common strategy
for dealing with unreliable data. Aggregate ratings are more reliable than
individual ones. However, many natural language processing (NLP) applications
that rely on aggregate ratings only report the reliability of individual
ratings, which is the incorrect unit of analysis. In these instances, the data
reliability is under-reported, and a proposed k-rater reliability (kRR) should
be used as the correct data reliability for aggregated datasets. It is a
multi-rater generalization of inter-rater reliability (IRR). We conducted two
replications of the WordSim-353 benchmark, and present empirical, analytical,
and bootstrap-based methods for computing kRR on WordSim-353. These methods
produce very similar results. We hope this discussion will nudge researchers to
report kRR in addition to IRR.
- Abstract(参考訳): クラウドソーシングの開始以来、アグリゲーションは信頼できないデータを扱うための一般的な戦略であった。
集約評価は個々の評価よりも信頼性が高い。
しかし、集約格付けに依存する自然言語処理(NLP)アプリケーションは、分析の誤った単位である個々の格付けの信頼性のみを報告している。
これらの例では、データの信頼性は過小に報告されており、集計データセットの正しいデータ信頼性として提案されているk-rater reliability(krr)を使用する必要がある。
レータ間信頼性(IRR)の多層一般化である。
wordsim-353ベンチマークの2つのレプリケーションを行い,wordsim-353上でkrrを計算するための経験的,解析的,ブートストラップ的手法を提案する。
これらの方法は非常によく似た結果を生み出す。
この議論が研究者にIRRに加えてkRRを報告するよう促すことを願っている。
関連論文リスト
- Retrieval-Augmented Generation with Estimation of Source Reliability [15.69681944254975]
Reliability-Aware RAG (RA-RAG) は複数のソースの信頼性を推定し、この情報を検索プロセスと集約プロセスの両方に組み込む。
異質なソース信頼性を持つ実世界のシナリオを反映したベンチマークを導入する。
論文 参考訳(メタデータ) (2024-10-30T12:09:29Z) - A Confidence-based Partial Label Learning Model for Crowd-Annotated
Named Entity Recognition [74.79785063365289]
名前付きエンティティ認識(NER)のための既存のモデルは、主に大規模ラベル付きデータセットに基づいている。
我々は,クラウドアノテートNERに対する先行信頼度(アノテータによる提案)と後続信頼度(モデルによる学習)を統合するために,信頼に基づく部分ラベル学習(CPLL)手法を提案する。
論文 参考訳(メタデータ) (2023-05-21T15:31:23Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Towards Realistic Low-resource Relation Extraction: A Benchmark with
Empirical Baseline Study [51.33182775762785]
本稿では,低リソース環境下での関係抽出システムを構築するための実証的研究について述べる。
低リソース環境での性能を評価するための3つのスキームについて検討する。 (i) ラベル付きラベル付きデータを用いた異なるタイプのプロンプトベース手法、 (ii) 長期分布問題に対処する多様なバランシング手法、 (iii) ラベル付きインドメインデータを生成するためのデータ拡張技術と自己学習。
論文 参考訳(メタデータ) (2022-10-19T15:46:37Z) - FedRAD: Federated Robust Adaptive Distillation [7.775374800382709]
一般的にモデルの更新を集約するコラボレーション学習フレームワークは、敵のクライアントによる毒殺攻撃のモデルに対して脆弱である。
本稿では,新たなロバスト適応蒸留法 (FedRAD) を提案する。
その結果,FedRADは敵の存在や異種データ分布において,他のアグリゲータよりも優れていた。
論文 参考訳(メタデータ) (2021-12-02T16:50:57Z) - Distributionally Robust Multi-Output Regression Ranking [3.9318191265352196]
DRMRR(Distributedally Robust Multi-output Regression Ranking)と呼ばれるリストワイズ学習ランクモデルを導入する。
DRMRRは分散ロバスト最適化フレームワークを使用して、経験的データ分布の近傍で最も有害な分布の下でのマルチ出力損失関数を最小化する。
本実験は,医用文書検索と薬物反応予測の2つの実世界の応用について行った。
論文 参考訳(メタデータ) (2021-09-27T05:19:27Z) - Investigating Crowdsourcing Protocols for Evaluating the Factual
Consistency of Summaries [59.27273928454995]
要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾がちである。
評価ベースのLikertスケールとランキングベースのBest-Worst Scalingプロトコルを用いた,事実整合性のためのクラウドソーシング評価フレームワークを構築した。
ランキングベースのプロトコルは、データセット間の要約品質をより信頼性の高い尺度を提供するのに対して、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
論文 参考訳(メタデータ) (2021-09-19T19:05:00Z) - RIFLE: Imputation and Robust Inference from Low Order Marginals [10.082738539201804]
我々は,不備なデータの存在下での回帰と分類のための統計的推論フレームワークを開発する。
我々のフレームワークであるRIFLEは、基礎となるデータ分布の低次モーメントを対応する信頼区間で推定し、分布的に堅牢なモデルを学ぶ。
実験の結果,RIFLEは,欠落値の割合が高い場合や,データポイント数が比較的小さい場合には,他のベンチマークアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-09-01T23:17:30Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Cross-replication Reliability -- An Empirical Approach to Interpreting
Inter-rater Reliability [2.2091544233596596]
経験的かつ文脈的に解釈された新しいIRRの解釈手法を提案する。
これは複製におけるベースライン測度に対するIRRのベンチマークに基づいており、そのうちの1つはコーエンのカッパに基づく新しいクロスレプリケーション信頼性(xRR)尺度である。
論文 参考訳(メタデータ) (2021-06-11T16:15:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。