論文の概要: The Human Evaluation Datasheet 1.0: A Template for Recording Details of
Human Evaluation Experiments in NLP
- arxiv url: http://arxiv.org/abs/2103.09710v1
- Date: Wed, 17 Mar 2021 15:08:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-18 15:08:22.358894
- Title: The Human Evaluation Datasheet 1.0: A Template for Recording Details of
Human Evaluation Experiments in NLP
- Title(参考訳): human evaluation datasheet 1.0 : nlpにおけるヒューマン評価実験の詳細を記録するテンプレート
- Authors: Anastasia Shimorina and Anya Belz
- Abstract要約: 人間評価は、自然言語処理(NLP)における個人評価実験の詳細を記録するためのテンプレートである
人間の評価は、人間の評価の特性を十分に詳細に記録することを目的としている。
- 参考スコア(独自算出の注目度): 1.4467794332678539
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces the Human Evaluation Datasheet, a template for
recording the details of individual human evaluation experiments in Natural
Language Processing (NLP). Originally taking inspiration from seminal papers by
Bender and Friedman (2018), Mitchell et al. (2019), and Gebru et al. (2020),
the Human Evaluation Datasheet is intended to facilitate the recording of
properties of human evaluations in sufficient detail, and with sufficient
standardisation, to support comparability, meta-evaluation, and reproducibility
tests.
- Abstract(参考訳): 本稿では,自然言語処理(NLP)における個人評価実験の詳細を記録するテンプレートであるHuman Evaluation Datasheetを紹介する。
Bender and Friedman (2018)、Mitchellらによる独創的な論文から着想を得た。
(2019年)、gebru et al。
(2020年) 人的評価データシートは、人間の評価の特性を十分に詳細に記録し、十分な標準化を行い、可視性、メタ評価、再現性テストを支援することを目的としている。
関連論文リスト
- HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.09361690937618]
人間の判断の代わりにLPMを用いてNLPモデルを評価する傾向が高まっている。
JUDGE-BENCHは20個のNLPデータセットのコレクションで、人間のアノテーションで、幅広い評価された特性やデータの種類をカバーしています。
アノテーションを複製できるため、オープンウェイトモデルとプロプライエタリモデルの両方をカバーする11の現在のLCMを評価します。
論文 参考訳(メタデータ) (2024-06-26T14:56:13Z) - It HAS to be Subjective: Human Annotator Simulation via Zero-shot
Density Estimation [15.8765167340819]
人間アノテーションシミュレーション(Human Annotator Simulation, HAS)は、データアノテーションやシステムアセスメントなどの人的評価の代用として費用対効果がある。
人間の評価中の人間の知覚と行動は、多様な認知過程と主観的解釈による固有の多様性を示す。
本稿では,HASをゼロショット密度推定問題として扱うメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-30T20:54:59Z) - Learning and Evaluating Human Preferences for Conversational Head
Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。
PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文 参考訳(メタデータ) (2023-07-20T07:04:16Z) - FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long
Form Text Generation [176.56131810249602]
大規模言語モデル(LM)が生成する長文の事実性を評価することは簡単ではない。
FACTSCOREは、世代を一連の原子事実に分解し、信頼できる知識ソースによって支持される原子事実の割合を計算する新しい評価手法である。
論文 参考訳(メタデータ) (2023-05-23T17:06:00Z) - Missing Information, Unresponsive Authors, Experimental Flaws: The
Impossibility of Assessing the Reproducibility of Previous Human Evaluations
in NLP [84.08476873280644]
13%の論文は (i) 再生の障壁が十分に低く、 (ii) 再生のために考慮すべき十分な入手可能な情報を持っていた。
その結果,コーディネート・リサーチ・デザインを再現的アプローチから標準化的・再生産的アプローチに変更しなければならなかった。
論文 参考訳(メタデータ) (2023-05-02T17:46:12Z) - Toward Verifiable and Reproducible Human Evaluation for Text-to-Image
Generation [35.8129864412223]
本稿では,標準化されたヒューマン評価プロトコルを提案する。
本研究では,現在の自動測定法が人間の知覚と相容れないことを実験的に示す。
人間の評価実験を確実かつ決定的に設計するための洞察を提供する。
論文 参考訳(メタデータ) (2023-04-04T14:14:16Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - A Review of Human Evaluation for Style Transfer [12.641094377317904]
本稿では,97 スタイルのトランスファー論文に記述された人的評価の実践をレビューし,要約する。
人間の評価のためのプロトコルは、しばしば不特定であり、標準化されていない。
論文 参考訳(メタデータ) (2021-06-09T00:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。