論文の概要: Hierarchical Evaluation Framework: Best Practices for Human Evaluation
- arxiv url: http://arxiv.org/abs/2310.01917v2
- Date: Thu, 12 Oct 2023 07:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 03:01:31.834523
- Title: Hierarchical Evaluation Framework: Best Practices for Human Evaluation
- Title(参考訳): 階層的評価フレームワーク:人間評価のためのベストプラクティス
- Authors: Iva Bojic, Jessica Chen, Si Yuan Chang, Qi Chwen Ong, Shafiq Joty,
Josip Car
- Abstract要約: NLPハマーにおける広く受け入れられている評価基準の欠如は、異なるシステム間での公正な比較と、普遍的な評価基準の確立である。
我々は,NLPシステムの性能をより包括的に表現するための,独自の階層的評価フレームワークを開発した。
今後の課題として,NLPシステムの評価を行う上で,提案するフレームワークの時間節約効果について検討する。
- 参考スコア(独自算出の注目度): 17.91641890651225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human evaluation plays a crucial role in Natural Language Processing (NLP) as
it assesses the quality and relevance of developed systems, thereby
facilitating their enhancement. However, the absence of widely accepted human
evaluation metrics in NLP hampers fair comparisons among different systems and
the establishment of universal assessment standards. Through an extensive
analysis of existing literature on human evaluation metrics, we identified
several gaps in NLP evaluation methodologies. These gaps served as motivation
for developing our own hierarchical evaluation framework. The proposed
framework offers notable advantages, particularly in providing a more
comprehensive representation of the NLP system's performance. We applied this
framework to evaluate the developed Machine Reading Comprehension system, which
was utilized within a human-AI symbiosis model. The results highlighted the
associations between the quality of inputs and outputs, underscoring the
necessity to evaluate both components rather than solely focusing on outputs.
In future work, we will investigate the potential time-saving benefits of our
proposed framework for evaluators assessing NLP systems.
- Abstract(参考訳): 自然言語処理(NLP)において,人間の評価は,開発システムの品質と妥当性を評価する上で重要な役割を担っている。
しかし,NLPハマーにおいて広く受け入れられている評価基準が存在しないことは,異なるシステム間での公正な比較と普遍的評価基準の確立である。
既存の評価指標に関する文献を広範囲に分析し,nlp評価手法のギャップを明らかにした。
これらのギャップは、独自の階層的評価フレームワークを開発する動機となったのです。
提案したフレームワークは、特にNLPシステムの性能をより包括的に表現する上で、顕著な利点がある。
我々は,人間-AI共生モデルを用いて構築された機械読解システムの評価に,この枠組みを適用した。
その結果、入力と出力の質の関係が強調され、出力のみに注目するのではなく、両方のコンポーネントを評価する必要性が強調された。
今後の課題として,NLPシステムの評価を行う上で,提案するフレームワークの時間節約効果について検討する。
関連論文リスト
- Evaluation in Neural Style Transfer: A Review [0.7614628596146599]
既存の評価手法の詳細な分析を行い、現在の評価手法の不整合と限界を特定し、標準化された評価手法の推奨を行う。
我々は、ロバストな評価フレームワークの開発により、より有意義で公平な比較が可能になるだけでなく、この分野における研究成果の理解と解釈を高めることができると考えている。
論文 参考訳(メタデータ) (2024-01-30T15:45:30Z) - Reinforcement learning for question answering in programming domain
using public community scoring as a human feedback [0.0]
本稿では,CQA(Community Question Answering)におけるGPT Neo 125Mの性能向上について検討する。
PPO(Proximal Policy Optimization)による微調整には2つの異なる報酬モデルトレーニング戦略が採用されている。
補助的なスコアリング機構を導入し、プログラミング領域における応答評価における従来の言語指標の限界を示す。
論文 参考訳(メタデータ) (2024-01-19T18:49:36Z) - Leveraging Large Language Models for NLG Evaluation: A Survey [56.21534358429998]
LLM(Large Language Models)の導入は、生成されたコンテンツ品質を評価するための新たな道を開いた。
既存のLCMに基づく評価指標を整理するためのコヒーレントな分類法を提案する。
この調査は、研究者に洞察を提供し、より公平で高度なNLG評価手法を提唱することを目的としている。
論文 参考訳(メタデータ) (2024-01-13T15:59:09Z) - Unveiling Bias in Fairness Evaluations of Large Language Models: A
Critical Literature Review of Music and Movie Recommendation Systems [0.0]
生成的人工知能の台頭、特にLarge Language Models (LLMs) は、正確性とともに公正性を精査する衝動を強めている。
近年,レコメンデーションなどの領域におけるLCMの公平性評価が研究されている。
しかし、現在の公平性評価フレームワークがパーソナライズに寄与する程度は未定である。
論文 参考訳(メタデータ) (2024-01-08T17:57:29Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Towards a Comprehensive Human-Centred Evaluation Framework for
Explainable AI [1.7222662622390634]
本稿では,レコメンデータシステムに使用されるユーザ中心評価フレームワークを適用することを提案する。
我々は、説明的側面、説明的特性を要約し、それらの関係を示し、これらの特性を測定する分類指標を統合する。
論文 参考訳(メタデータ) (2023-07-31T09:20:16Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill
Sets [72.54255857335549]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - KPEval: Towards Fine-Grained Semantic-Based Keyphrase Evaluation [78.18992019606533]
KPEvalは、参照合意、忠実性、多様性、有用性という4つの重要な側面からなる総合的な評価フレームワークである。
KPEvalを用いて、21のキーフレーズシステムを再評価し、確立されたモデル比較結果に盲点があることを発見する。
論文 参考訳(メタデータ) (2023-03-27T17:45:38Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Vote'n'Rank: Revision of Benchmarking with Social Choice Theory [7.224599819499157]
本稿では,社会的選択論の原理に基づき,マルチタスクベンチマークにおけるシステムランキングの枠組みであるVote'n'Rankを提案する。
いくつかのMLサブフィールドにおいて,ベンチマークに関する新たな洞察を引き出すために,我々の手法を効率的に活用できることを実証する。
論文 参考訳(メタデータ) (2022-10-11T20:19:11Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。