論文の概要: Defining and Detecting Vulnerability in Human Evaluation Guidelines: A Preliminary Study Towards Reliable NLG Evaluation
- arxiv url: http://arxiv.org/abs/2406.07935v1
- Date: Wed, 12 Jun 2024 06:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 18:05:32.522132
- Title: Defining and Detecting Vulnerability in Human Evaluation Guidelines: A Preliminary Study Towards Reliable NLG Evaluation
- Title(参考訳): ヒト評価ガイドラインにおける脆弱性の定義と検出:信頼性NLG評価に向けた予備的研究
- Authors: Jie Ruan, Wenqing Wang, Xiaojun Wan,
- Abstract要約: トップコンファレンスでの人間評価に関する最近の論文の29.84%のみが評価ガイドラインを公表している。
既存の論文から抽出したガイドラインのアノテーションと,大規模言語モデルを用いて作成したガイドラインのアノテーションを収集する。
8つの脆弱性の分類を導入し,評価ガイドライン作成の原則を定式化する。
- 参考スコア(独自算出の注目度): 43.21663407946184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human evaluation serves as the gold standard for assessing the quality of Natural Language Generation (NLG) systems. Nevertheless, the evaluation guideline, as a pivotal element ensuring reliable and reproducible human assessment, has received limited attention.Our investigation revealed that only 29.84% of recent papers involving human evaluation at top conferences release their evaluation guidelines, with vulnerabilities identified in 77.09% of these guidelines. Unreliable evaluation guidelines can yield inaccurate assessment outcomes, potentially impeding the advancement of NLG in the right direction. To address these challenges, we take an initial step towards reliable evaluation guidelines and propose the first human evaluation guideline dataset by collecting annotations of guidelines extracted from existing papers as well as generated via Large Language Models (LLMs). We then introduce a taxonomy of eight vulnerabilities and formulate a principle for composing evaluation guidelines. Furthermore, a method for detecting guideline vulnerabilities has been explored using LLMs, and we offer a set of recommendations to enhance reliability in human evaluation. The annotated human evaluation guideline dataset and code for the vulnerability detection method are publicly available online.
- Abstract(参考訳): 人間の評価は、自然言語生成(NLG)システムの品質を評価するための金の標準となっている。
それにもかかわらず、評価ガイドラインは信頼性と再現性のある人的評価を確実にする重要な要素として注目されており、我々の調査によると、トップカンファレンスにおける人的評価に関する最近の研究の29.84%のみが評価ガイドラインを公表し、これらのガイドラインの77.09%に脆弱性が特定されている。
信頼できない評価ガイドラインは、不正確な評価結果をもたらし、NLGの正しい方向への進歩を妨げる可能性がある。
これらの課題に対処するため,我々は,信頼性評価ガイドラインへの最初の一歩を踏み出し,既存の論文から抽出したガイドラインの注釈を収集し,Large Language Models (LLMs) を通じて生成する最初の人間評価ガイドラインデータセットを提案する。
次に,8つの脆弱性の分類を導入し,評価ガイドライン作成の原則を定式化する。
さらに,LSMを用いてガイドラインの脆弱性を検出する手法について検討し,人間の評価の信頼性を高めるためのレコメンデーションセットを提案する。
注釈付きヒト評価ガイドラインデータセットと脆弱性検出方法のコードはオンラインで公開されている。
関連論文リスト
- ReviewEval: An Evaluation Framework for AI-Generated Reviews [9.35023998408983]
本研究は、AI生成レビューのための総合的な評価フレームワークを紹介する。
人間の評価との整合性を測定し、事実の正確性を検証し、分析的な深さを評価し、実行可能な洞察を識別する。
我々のフレームワークは、AIベースのレビューシステムを評価するための標準化されたメトリクスを確立する。
論文 参考訳(メタデータ) (2025-02-17T12:22:11Z) - DeepCRCEval: Revisiting the Evaluation of Code Review Comment Generation [11.010557279355885]
本研究は,先行研究や開発者インタビューから得られた新しい基準を用いて,ベンチマークコメントを実証的に分析する。
評価フレームワークであるDeepCRCEvalは、人間の評価器とLarge Language Models(LLM)を統合し、現在の手法を総合的に再評価する。
論文 参考訳(メタデータ) (2024-12-24T08:53:54Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - Unveiling the Achilles' Heel of NLG Evaluators: A Unified Adversarial Framework Driven by Large Language Models [52.368110271614285]
我々は,NLG評価器に対する新しいブラックボックス対逆フレームワークであるAdvEvalを紹介する。
AdvEvalは、人間と被害者の評価者との強い意見の相違をもたらすデータを生成するために特別に調整されている。
我々は,12名の被害者評価者と11名のNLGデータセットを用いて,対話,要約,質問評価などのタスクを分散した実験を行った。
論文 参考訳(メタデータ) (2024-05-23T14:48:15Z) - A Framework for Human Evaluation of Large Language Models in Healthcare Derived from Literature Review [11.28580626017631]
我々は、標準化された一貫した人間評価アプローチに対する顕著なニーズを強調します。
大規模言語モデル(LLM)の人間評価のための包括的で実践的な枠組みを提案する。
このフレームワークは、異なる医療アプリケーションにおけるLCMの信頼性、一般化可能性、適用性を改善することを目的としている。
論文 参考訳(メタデータ) (2024-05-04T04:16:07Z) - Human-in-the-loop Evaluation for Early Misinformation Detection: A Case
Study of COVID-19 Treatments [19.954539961446496]
本稿では,新たな誤情報主張を事実チェックし,それをサポートするソーシャルメディアメッセージを特定するための,ループ内人間評価フレームワークを提案する。
提案手法は,レビューのために集計・ランク付けされたチェック価値のあるクレームを抽出する。
スタンス分類器は、新しい偽情報主張を支持するツイートを識別するために使用され、それらが関連するポリシーに違反しているかどうかを判断するためにさらにレビューされる。
論文 参考訳(メタデータ) (2022-12-19T18:11:10Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文 参考訳(メタデータ) (2020-02-10T00:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。