論文の概要: Posthoc Verification and the Fallibility of the Ground Truth
- arxiv url: http://arxiv.org/abs/2106.07353v1
- Date: Wed, 2 Jun 2021 17:57:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-20 20:52:01.463594
- Title: Posthoc Verification and the Fallibility of the Ground Truth
- Title(参考訳): 地中真実のポストホック検証と転倒可能性
- Authors: Yifan Ding, Nicholas Botzer, Tim Weninger
- Abstract要約: 我々は,エンティティリンク(EL)タスクにおいて,系統的なポストホック検証実験を行う。
プレアノテーション評価と比較して,最先端ELモデルはポストホック評価法により極めて良好に動作した。
驚くべきことに、ELモデルからの予測は、基礎的な真実よりも類似または高い検証率を持っていた。
- 参考スコア(独自算出の注目度): 10.427125361534966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classifiers commonly make use of pre-annotated datasets, wherein a model is
evaluated by pre-defined metrics on a held-out test set typically made of
human-annotated labels. Metrics used in these evaluations are tied to the
availability of well-defined ground truth labels, and these metrics typically
do not allow for inexact matches. These noisy ground truth labels and strict
evaluation metrics may compromise the validity and realism of evaluation
results. In the present work, we discuss these concerns and conduct a
systematic posthoc verification experiment on the entity linking (EL) task.
Unlike traditional methodologies, which asks annotators to provide free-form
annotations, we ask annotators to verify the correctness of annotations after
the fact (i.e., posthoc). Compared to pre-annotation evaluation,
state-of-the-art EL models performed extremely well according to the posthoc
evaluation methodology. Posthoc validation also permits the validation of the
ground truth dataset. Surprisingly, we find predictions from EL models had a
similar or higher verification rate than the ground truth. We conclude with a
discussion on these findings and recommendations for future evaluations.
- Abstract(参考訳): 分類器は通常、事前に定義されたデータセットを使用しており、モデルは通常、人間の注釈付きラベルで作られるホールドアウトテストセット上で、事前定義されたメトリクスによって評価される。
これらの評価に使用されるメトリクスは、明確に定義された基底真理ラベルの可用性に結びついており、通常、これらのメトリクスは不正確な一致を許さない。
これらのノイズの多い基底的真理ラベルと厳密な評価指標は、評価結果の妥当性とリアリズムを損なう可能性がある。
本稿では,これらの懸念を議論し,エンティティリンク(el)タスクに関する体系的なポストホック検証実験を行う。
アノテーションに自由形式のアノテーションを提供することを求める従来の方法論とは異なり、アノテーションは事実(つまりポストホック)の後のアノテーションの正しさを検証するように求めます。
プレアノテーション評価と比較して,最先端ELモデルはポストホック評価法により極めて良好に動作した。
posthoc validationはまた、基底真理データセットの検証を許可する。
驚くべきことに、ELモデルからの予測は、基礎的な真実よりも類似または高い検証率を持っていた。
本研究は,これらの知見と今後の評価への提言に関する議論から締めくくっている。
関連論文リスト
- FactLens: Benchmarking Fine-Grained Fact Verification [6.814173254027381]
我々は、複雑なクレームを個別の検証のためにより小さなサブステートに分割する、きめ細かい検証へのシフトを提唱する。
我々は,ファクトレンス(FactLens)という,ファクトレンス(FactLens)という,詳細な事実検証のベンチマークを紹介した。
この結果から,FactLens自動評価器と人的判断との整合性を示し,評価性能に対する準定値特性の影響について考察した。
論文 参考訳(メタデータ) (2024-11-08T21:26:57Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Weak Supervision Performance Evaluation via Partial Identification [46.73061437177238]
Programmatic Weak Supervision (PWS) は、地上の真理ラベルに直接アクセスすることなく、教師付きモデルトレーニングを可能にする。
本稿では,モデル評価を部分的同定問題としてフレーミングすることで,この問題に対処する新しい手法を提案する。
提案手法は,従来の弱監督評価手法において,ラベル付きデータを必要とせず,重要な指標に信頼性のあるバウンダリを導出する。
論文 参考訳(メタデータ) (2023-12-07T07:15:11Z) - Evaluating AI systems under uncertain ground truth: a case study in
dermatology [44.80772162289557]
本稿では,アノテーションの不確実性を測定するための指標を提案し,評価のための不確実性調整指標を提案する。
本稿では,本フレームワークを皮膚条件分類に応用した症例スタディとして,アノテーションを診断の形で提供した画像について述べる。
論文 参考訳(メタデータ) (2023-07-05T10:33:45Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Interpretable Automatic Fine-grained Inconsistency Detection in Text
Summarization [56.94741578760294]
本研究の目的は, 要約中の事実誤りの微粒化を予測し, 微粒化不整合検出の課題を提案することである。
要約における現実的不整合の検査方法に触発され,解析可能な微粒不整合検出モデルであるFinGrainFactを提案する。
論文 参考訳(メタデータ) (2023-05-23T22:11:47Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - Investigating Crowdsourcing Protocols for Evaluating the Factual
Consistency of Summaries [59.27273928454995]
要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾がちである。
評価ベースのLikertスケールとランキングベースのBest-Worst Scalingプロトコルを用いた,事実整合性のためのクラウドソーシング評価フレームワークを構築した。
ランキングベースのプロトコルは、データセット間の要約品質をより信頼性の高い尺度を提供するのに対して、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
論文 参考訳(メタデータ) (2021-09-19T19:05:00Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z) - GPM: A Generic Probabilistic Model to Recover Annotator's Behavior and
Ground Truth Labeling [34.48095564497967]
本稿では,基礎となる真実とアノテーションの振舞いを推測する確率論的グラフィカルアノテーションモデルを提案する。
提案モデルでは,アノテータがラベル付け処理中にタスクに対して厳格に動作したかどうかを識別できる。
論文 参考訳(メタデータ) (2020-03-01T12:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。